Voici sept étapes pour installer Spark sur Windows 10 et l'exécuter à partir de python:
Étape 1: téléchargez le fichier gz spark 2.2.0 tar (archive sur bande) dans n'importe quel dossier F à partir de ce lien - https://spark.apache.org/downloads.html . Décompressez-le et copiez le dossier décompressé dans le dossier souhaité A. Renommez le dossier spark-2.2.0-bin-hadoop2.7 pour spark.
Laissez le chemin d'accès au dossier spark être C: \ Users \ Desktop \ A \ spark
Étape 2: téléchargez le fichier hardoop 2.7.3 tar gz dans le même dossier F à partir de ce lien - https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7 .3.tar.gz . Décompressez-le et copiez le dossier décompressé dans le même dossier A. Renommez le nom du dossier de Hadoop-2.7.3.tar en hadoop. Laissez le chemin vers le dossier hadoop être C: \ Users \ Desktop \ A \ hadoop
Étape 3: Créez un nouveau fichier texte de bloc-notes. Enregistrez ce fichier de bloc-notes vide sous winutils.exe (avec le type Enregistrer sous: Tous les fichiers). Copiez ce fichier O KB winutils.exe dans votre dossier bin dans spark - C: \ Users \ Desktop \ A \ spark \ bin
Étape 4: Maintenant, nous devons ajouter ces dossiers à l'environnement système.
4a: Créez une variable système (pas une variable utilisateur car la variable utilisateur héritera de toutes les propriétés de la variable système) Nom de la variable: SPARK_HOME Valeur de la variable: C: \ Users \ Desktop \ A \ spark
Recherchez la variable système Path et cliquez sur Modifier. Vous verrez plusieurs chemins. Ne supprimez aucun des chemins. Ajoutez cette valeur de variable -; C: \ Users \ Desktop \ A \ spark \ bin
4b: Créer une variable système
Nom de la variable: HADOOP_HOME Valeur de la variable: C: \ Users \ Desktop \ A \ hadoop
Recherchez la variable système Path et cliquez sur Modifier. Ajoutez cette valeur de variable -; C: \ Users \ Desktop \ A \ hadoop \ bin
4c: Créer une variable système Nom de la variable: JAVA_HOME Recherche Java dans Windows. Faites un clic droit et cliquez sur l'emplacement du fichier ouvert. Vous devrez à nouveau faire un clic droit sur l'un des fichiers java et cliquer sur l'emplacement du fichier ouvert. Vous utiliserez le chemin de ce dossier. OU vous pouvez rechercher C: \ Program Files \ Java. Ma version Java installée sur le système est jre1.8.0_131. Valeur de la variable: C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Recherchez la variable système Path et cliquez sur Modifier. Ajoutez cette valeur de variable -; C: \ Program Files \ Java \ jre1.8.0_131 \ bin
Étape 5: Ouvrez l'invite de commande et accédez à votre dossier spark bin (tapez cd C: \ Users \ Desktop \ A \ spark \ bin). Tapez étincelle.
C:\Users\Desktop\A\spark\bin>spark-shell
Cela peut prendre du temps et donner quelques avertissements. Enfin, il affichera bienvenue à Spark version 2.2.0
Étape 6: Tapez exit () ou redémarrez l'invite de commande et accédez à nouveau au dossier Spark Bin. Tapez pyspark:
C:\Users\Desktop\A\spark\bin>pyspark
Il affichera quelques avertissements et erreurs mais les ignorera. Ça marche.
Étape 7: Votre téléchargement est terminé. Si vous souhaitez exécuter directement spark à partir du shell python, allez dans Scripts dans votre dossier python et tapez
pip install findspark
dans l'invite de commande.
Dans le shell python
import findspark
findspark.init()
importer les modules nécessaires
from pyspark import SparkContext
from pyspark import SparkConf
Si vous souhaitez ignorer les étapes d'importation de findpark et de son initialisation, veuillez suivre la procédure indiquée dans l'
importation de pyspark dans le shell python