So installieren Sie Apache Spark unter openSUSE

In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Spark auf openSUSE installieren. Apache Spark ist zu einem unverzichtbaren Tool für die Verarbeitung großer Datenmengen geworden und bietet blitzschnelle Leistung und eine breite Palette an Funktionen. Als Datenwissenschaftler, Ingenieur oder Enthusiast müssen Sie möglicherweise Apache Spark auf Ihrem openSUSE-System installieren.

Dieser Artikel setzt voraus, dass Sie über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell benutzt, und, was am wichtigsten ist, dass Sie Ihre Site auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und setzt voraus, dass Sie das Root-Konto verwenden. Wenn nicht, müssen Sie möglicherweise ‚sudo‚ zu den Befehlen hinzu, um Root-Rechte zu erhalten. Ich zeige Ihnen die schrittweise Installation von Apache Spark auf openSUSE.

Voraussetzungen

  • Ein Server, auf dem eines der folgenden Betriebssysteme läuft: openSUSE (Sprung oder Steppenläufer)
  • Um potenzielle Probleme zu vermeiden, wird eine Neuinstallation des Betriebssystems empfohlen.
  • Sie benötigen Zugriff auf das Terminal, um Befehle auszuführen. openSUSE stellt hierfür die Anwendung „Terminal“ bereit. Sie finden diese in Ihrem Anwendungsmenü.
  • Sie benötigen eine aktive Internetverbindung.
  • Sie benötigen Administratorzugriff (Root) oder ein Benutzerkonto mit Sudo-Berechtigungen.

Installieren Sie Apache Spark unter openSUSE

Schritt 1. Systempakete aktualisieren.

Um einen reibungslosen Installationsprozess zu gewährleisten, empfiehlt es sich immer, Ihre Systempakete auf die neuesten Versionen zu aktualisieren. Öffnen Sie ein Terminal und führen Sie die folgenden Befehle aus:

sudo zypper refresh
sudo zypper update

Diese Befehle aktualisieren die Paket-Repositories und alle veralteten Pakete auf Ihrem System.

Schritt 2. Java Development Kit (JDK) installieren

Apache Spark erfordert Java, daher müssen Sie das Java Development Kit (JDK) auf Ihrem openSUSE-System installieren. Um JDK zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal aus:

sudo zypper install java-11-openjdk

Dieser Befehl installiert OpenJDK 11, eine beliebte Wahl für Apache Spark. Sobald die Installation abgeschlossen ist, können Sie die Java-Installation überprüfen, indem Sie Folgendes ausführen:

java -version

Schritt 3. Scala installieren.

Apache Spark ist in Scala geschrieben, daher müssen Sie Scala auf Ihrem openSUSE-System installieren. Um Scala zu installieren, führen Sie den folgenden Befehl in Ihrem Terminal aus:

sudo zypper install scala

Dieser Befehl installiert die neueste Version von Scala, die in den openSUSE-Repositorys verfügbar ist. Nachdem die Installation abgeschlossen ist, können Sie die Scala-Installation überprüfen, indem Sie Folgendes ausführen:

scala -version

Schritt 4. Apache Spark auf openSUSE installieren.

Nachdem Sie nun die Voraussetzungen installiert haben, ist es an der Zeit, Apache Spark herunterladen mit dem folgenden Befehl:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz

Sobald der Download abgeschlossen ist, müssen Sie das Apache Spark-Paket extrahieren. Verwenden Sie den folgenden Befehl, um das heruntergeladene Tarball zu extrahieren:

tar xvf spark-3.5.1-bin-hadoop3.tgz

Dieser Befehl extrahiert den Inhalt des Pakets in ein Verzeichnis namens spark-3.5.1-bin-hadoop3. Sie können dieses Verzeichnis an einen beliebigen Ort verschieben, beispielsweise /opt/sparkmit dem folgenden Befehl:

sudo mv spark-3.5.1-bin-hadoop3 /opt/spark

Um den Zugriff auf Apache Spark von überall in Ihrem System zu erleichtern, müssen Sie die erforderlichen Umgebungsvariablen festlegen. Öffnen Sie die .bashrc-Datei in Ihrem Home-Verzeichnis mit einem Texteditor:

nano ~/.bashrc

Fügen Sie am Ende der Datei die folgenden Zeilen hinzu:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

Speichern Sie die Änderungen und beenden Sie den Texteditor. Um die Änderungen anzuwenden, laden Sie den .bashrc Datei mit dem folgenden Befehl:

source ~/.bashrc

Jetzt können Sie von überall in Ihrem Terminal auf die Spark-Binärdateien zugreifen.

Schritt 5. PySpark installieren (optional)

Wenn Sie Apache Spark mit Python verwenden möchten, müssen Sie PySpark installieren. PySpark ist die Python-API für Apache Spark, mit der Sie Spark-Anwendungen mit Python schreiben können. Um PySpark zu installieren, führen Sie den folgenden Befehl aus:

pip install pyspark

Dieser Befehl installiert PySpark und seine Abhängigkeiten mit dem Python-Paketmanager pip.

Um zu überprüfen, ob Apache Spark korrekt installiert ist, können Sie die Spark-Shell mit dem folgenden Befehl starten:

spark-shell

Dieser Befehl startet die Spark-Shell. Im Terminal sollten das Spark-Logo und die Versionsinformationen angezeigt werden. Wenn Fehler auftreten, überprüfen Sie die Installationsschritte noch einmal und stellen Sie sicher, dass die Umgebungsvariablen richtig eingestellt sind.

Schritt 6. Ausführen einer einfachen Spark-Anwendung,

Nachdem Sie Apache Spark installiert und überprüft haben, führen wir eine einfache Spark-Anwendung aus, um die Anzahl der Zeilen in einer Textdatei zu zählen. Erstellen Sie eine neue Datei mit dem Namen LineCount.scala und fügen Sie den folgenden Code hinzu:

val textFile = spark.read.textFile("README.md")
val lineCount = textFile.count()
println(s"Number of lines: $lineCount")

Dieser Code liest die README.md Datei (vorausgesetzt, sie existiert im aktuellen Verzeichnis) und zählt die Anzahl der Zeilen darin. Um die Anwendung auszuführen, verwenden Sie den folgenden Befehl:

spark-shell -i LineCount.scala

Die Spark-Shell führt den Code aus und Sie sollten die Ausgabe sehen, die die Anzahl der Zeilen im README.md Datei.

Herzlichen Glückwunsch! Sie haben Apache Spark erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation von Apache Spark auf Ihrem openSUSE-System verwendet haben. Für weitere oder nützliche Informationen empfehlen wir Ihnen, die offizielle Apache-Website.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert