So installieren Sie Apache Spark auf Manjaro

In diesem Tutorial zeigen wir Ihnen, wie Sie Apache Spark auf Manjaro installieren. Apache Spark ist ein leistungsstarkes Open-Source-Cluster-Computing-Framework, das für die Datenverarbeitung in großem Maßstab entwickelt wurde. Aufgrund seiner Geschwindigkeit, Benutzerfreundlichkeit und Vielseitigkeit erfreut es sich im Big-Data-Ökosystem großer Beliebtheit. Egal, ob Sie mit Stapelverarbeitung, Echtzeit-Streaming, maschinellem Lernen oder SQL-Workloads arbeiten, Spark bietet eine einheitliche Plattform, um alles effizient zu bewältigen.

In diesem Artikel wird davon ausgegangen, dass Sie zumindest über Grundkenntnisse in Linux verfügen, wissen, wie man die Shell verwendet, und, was am wichtigsten ist, dass Sie Ihre Site auf Ihrem eigenen VPS hosten. Die Installation ist recht einfach und geht davon aus, dass Sie mit dem Root-Konto arbeiten. Andernfalls müssen Sie möglicherweise „sudo“ zu den Befehlen hinzufügen, um Root-Rechte zu erhalten. Ich zeige Ihnen die Schritt-für-Schritt-Installation des Apache Spark auf einem Manjaro Linux.

Voraussetzungen

  • Ein Server oder Desktop, auf dem eines der folgenden Betriebssysteme ausgeführt wird: Manjaround andere Arch-basierte Distributionen.
  • Es wird empfohlen, eine Neuinstallation des Betriebssystems zu verwenden, um mögliche Probleme zu vermeiden.
  • SSH-Zugriff auf den Server (oder öffnen Sie einfach Terminal, wenn Sie sich auf einem Desktop befinden).
  • Eine stabile Internetverbindung ist für das Herunterladen und Installieren von Paketen von entscheidender Bedeutung. Überprüfen Sie Ihre Verbindung, bevor Sie fortfahren.
  • Zugriff auf ein Manjaro-Linux-System mit einem Nicht-Root-Sudo-Benutzer oder Root-Benutzer.

Installieren Sie Apache Spark auf Manjaro

Schritt 1. Bevor Sie neue Software installieren, empfiehlt es sich, Ihre Paketdatenbank zu aktualisieren. Dadurch wird sichergestellt, dass Sie die neueste Version der Software installieren und alle Abhängigkeiten auf dem neuesten Stand sind. Um die Paketdatenbank zu aktualisieren, führen Sie den folgenden Befehl im Terminal aus:

sudo pacman -Syu

Schritt 2. Java installieren.

Apache Spark ist in Scala geschrieben, einer Sprache, die auf der Java Virtual Machine (JVM) läuft. Daher ist die Installation des Java Development Kit (JDK) eine Voraussetzung für die Ausführung von Spark. So können Sie OpenJDK auf Manjaro installieren:

sudo pacman -S jdk-openjdk

Überprüfen Sie die Java-Installation, indem Sie die Version überprüfen:

java -version

Schritt 3. Scala installieren.

Obwohl dies nicht unbedingt erforderlich ist, wird die Installation von Scala dringend empfohlen, da es sich um die primäre Sprache handelt, die zum Schreiben von Spark-Anwendungen verwendet wird. Scala bietet im Vergleich zu Java eine prägnantere und ausdrucksstärkere Syntax und erleichtert so die Arbeit mit Spark. Installieren Sie Scala mit dem Paketmanager:

sudo pacman -S scala

Überprüfen Sie die Scala-Installation:

scala -version

Schritt 4. Apache Spark auf Manjaro installieren.

Der erste Schritt bei der Installation von Apache Spark besteht darin, die entsprechende Distribution von der offiziellen Apache Spark-Website herunterzuladen. Sie können zwischen dem vorgefertigten Paket mit oder ohne Hadoop-Abhängigkeiten wählen.

Für diese Anleitung laden wir das Paket ohne Hadoop-Abhängigkeiten herunter, da Manjaro Linux über einen eigenen Paketmanager für die Handhabung von Abhängigkeiten verfügt. Verwenden Sie den folgenden Befehl, um die neueste Version von Apache Spark herunterzuladen:

wget https://archive.apache.org/dist/spark/spark-3.5.1/spark-3.5.1-bin-without-hadoop.tgz

Nachdem Sie das Spark-Paket heruntergeladen haben, ist es an der Zeit, die erforderlichen Konfigurationen zu extrahieren und einzurichten:

sudo mkdir /opt/spark

Extrahieren Sie das heruntergeladene Paket in das Spark-Home-Verzeichnis:

sudo tar -xvzf spark-3.5.1-bin-without-hadoop.tgz -C /opt/spark --strip-components=1

Richten Sie die Umgebungsvariablen ein, indem Sie eine neue Datei erstellen /etc/profile.d/spark.sh mit folgendem Inhalt:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin

Geben Sie die Datei als Quelle an, um die Änderungen anzuwenden:

source /etc/profile.d/spark.sh

Erstellen oder bearbeiten Sie die spark-defaults.conf Datei in der $SPARK_HOME/conf Verzeichnis zum Konfigurieren der Spark-Einstellungen. Hier sind einige gängige Konfigurationen:

spark.driver.host                 localhost
spark.eventLog.enabled            true
spark.eventLog.dir                /tmp/spark-events
spark.history.fs.logDirectory     /tmp/spark-events

Überprüfen Sie die Spark-Installation, indem Sie den folgenden Befehl ausführen:

spark-shell

Schritt 5. Spark Shell ausführen.

Die Spark Shell ist eine interaktive Umgebung, die es Ihnen ermöglicht, die Funktionen von Spark zu erkunden und damit zu experimentieren. Dies ist eine großartige Möglichkeit, mit Spark zu beginnen und Ihre Code-Snippets zu testen, bevor Sie sie in größere Anwendungen integrieren. Um die Spark Shell zu starten, führen Sie einfach den folgenden Befehl aus:

spark-shell

Sobald die Shell betriebsbereit ist, können Sie mit der Erstellung und Bearbeitung von Resilient Distributed Datasets (RDDs) beginnen, den Kerndatenstrukturen in Spark. Hier ist ein einfaches Beispiel:

val data = 1 to 1000000
val distData = sc.parallelize(data)
distData.filter(_ < 10).collect().foreach(println)

Dieser Code erstellt ein RDD distData Filtert aus einem Zahlenbereich Werte größer oder gleich 10 heraus und gibt die verbleibenden Werte auf der Konsole aus.

Schritt 6. Spark-Anwendungen ausführen.

Während sich die Spark-Shell hervorragend zum Testen und Erkunden eignet, möchten Sie irgendwann auch vollwertige Spark-Anwendungen entwickeln und ausführen. Diese Anwendungen können in Scala, Java, Python oder R geschrieben und gepackt und zur Ausführung an einen Spark-Cluster übermittelt werden. Hier ist ein Beispiel einer einfachen Scala Spark-Anwendung:

import org.apache.spark.sql.SparkSession

object SimpleApp {
  def main(args: Array(String)) {
    val spark = SparkSession.builder()
      .appName("Simple App")
      .getOrCreate()

    val data = Seq(("John", 30), ("Jane", 25), ("Bob", 35))
    val rdd = spark.sparkContext.parallelize(data)
    val result = rdd.map(x => (x._1, x._2 + 10))

    result.foreach(println)

    spark.stop()
  }
}

Diese Anwendung erstellt eine SparkSession, parallelisiert einige Daten, führt eine einfache Transformation durch (Hinzufügen von 10 zum Alter jeder Person) und druckt das Ergebnis aus.

Zum Packen und Ausführen dieser Anwendung können Sie Build-Tools wie sbt oder Maven verwenden. Nach dem Packen können Sie die Anwendung mithilfe von an einen Spark-Cluster senden spark-submit Befehl:

spark-submit --class "SimpleApp" --master local(*) /path/to/your/app.jar

Schritt 7. PySpark installieren.

PySpark ist die Python-API für Apache Spark, mit der Sie Spark-Anwendungen mit der Programmiersprache Python schreiben können. Es bietet eine nahtlose Integration zwischen Python und Spark und erleichtert so die Nutzung vorhandener Python-Bibliotheken und -Tools in Ihren Spark-Workflows. Um PySpark auf Manjaro zu installieren, können Sie den Python-Paketmanager pip verwenden:

pip install pyspark

Möglicherweise möchten Sie auch zusätzliche Python-Bibliotheken installieren, die sich gut in PySpark integrieren lassen, z. B. Pandas, NumPy und Scikit-Learn. Nach der Installation können Sie die PySpark-Shell starten, indem Sie Folgendes ausführen:

pyspark

Hier ist ein einfaches Beispiel für die Verwendung von PySpark zum Erstellen eines RDD und zum Durchführen einer Transformation:

data = range(1, 1000001)
distData = sc.parallelize(data)
result = distData.filter(lambda x: x < 10).collect()
print(result)

Schritt 8: Spark-Standalone-Modus.

Während die lokale Ausführung von Spark-Anwendungen zum Testen und Entwickeln praktisch ist, möchten Sie Ihre Anwendungen wahrscheinlich für Produktions-Workloads in einem Spark-Cluster bereitstellen. Spark bietet zu diesem Zweck einen Standalone-Modus, der es Ihnen ermöglicht, einen Spark-Cluster auf einer Reihe dedizierter Maschinen einzurichten.

Um Spark im Standalone-Modus auszuführen, müssen Sie einen Spark-Master-Prozess und einen oder mehrere Spark-Worker-Prozesse starten. So können Sie es machen:

  • Starten Sie den Spark Master-Prozess:
  • $SPARK_HOME/sbin/start-master.sh
    
  • Starten Sie einen oder mehrere Spark-Worker-Prozesse und geben Sie dabei die Master-URL an:
  • $SPARK_HOME/sbin/start-worker.sh spark://MASTER_HOST:7077
    

    Ersetzen MASTER_HOST mit dem Hostnamen oder der IP-Adresse des Computers, auf dem der Spark Master ausgeführt wird.

  • Konfigurieren Sie Ihre Spark-Anwendungen für die Ausführung im Standalone-Modus, indem Sie Folgendes angeben --master Option beim Absenden:
  • spark-submit --master spark://MASTER_HOST:7077 --class "MyApp" /path/to/my-app.jar
    

    Dadurch wird Ihre Spark-Anwendung an den Standalone-Cluster übermittelt, sodass sie die verteilten Rechenressourcen nutzen kann.

    Glückwunsch! Sie haben Apache Spark erfolgreich installiert. Vielen Dank, dass Sie dieses Tutorial zur Installation der neuesten Version von Apache Spark auf dem Manjaro-System verwendet haben. Für weitere Hilfe oder nützliche Informationen empfehlen wir Ihnen, hier nachzuschauen die offizielle Apache-Website.

    Schreibe einen Kommentar

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert