La programmation apache-spark

19

importation de pyspark dans le shell python

Ceci est une copie de la question de quelqu'un d'autre sur un autre forum qui n'a jamais reçu de réponse, alors j'ai pensé que je la poserais à nouveau ici, car j'ai le même problème. (Voir http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) J'ai installé Spark correctement sur ma machine et je suis capable d'exécuter …

111 python apache-spark pyspark

12

Charger le fichier CSV avec Spark

Je suis nouveau sur Spark et j'essaie de lire les données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que cet appel me donne une liste des deux premières colonnes de mon fichier mais j'obtiens cette …

110 python csv apache-spark pyspark

8

Comment écraser le répertoire de sortie dans Spark

J'ai une application Spark Streaming qui produit un ensemble de données pour chaque minute. J'ai besoin de sauvegarder / écraser les résultats des données traitées. Lorsque j'ai essayé d'écraser l'ensemble de données org.apache.hadoop.mapred.FileAlreadyExistsException arrête l'exécution. J'ai défini la propriété Spark set("spark.files.overwrite","true"), mais il n'y a pas de chance. Comment écraser …

108 apache-spark

13

Écrire un seul fichier CSV à l'aide de spark-csv

J'utilise https://github.com/databricks/spark-csv , j'essaie d'écrire un seul CSV, mais pas en mesure de le faire, il crée un dossier. Besoin d'une fonction Scala qui prendra des paramètres tels que le chemin et le nom de fichier et écrira ce fichier CSV.

108 scala csv apache-spark spark-csv

8

Convertir la colonne Spark DataFrame en liste Python

Je travaille sur un dataframe avec deux colonnes, mvv et count. +---+-----+ |mvv|count| +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | Je voudrais obtenir deux listes contenant les valeurs mvv et la valeur de comptage. Quelque chose …

104 python apache-spark pyspark spark-dataframe

4

Application en cours d'exécution Spark Kill

J'ai une application Spark en cours d'exécution où elle occupe tous les cœurs où mes autres applications ne recevront aucune ressource. J'ai fait quelques recherches rapides et les gens ont suggéré d'utiliser YARN kill ou / bin / spark-class pour tuer la commande. Cependant, j'utilise la version CDH et / …

101 apache-spark yarn pyspark

14

Comment vérifier si Spark Dataframe est vide?

En ce moment, je dois utiliser df.count > 0pour vérifier si leDataFrame est vide ou non. Mais c'est un peu inefficace. Y a-t-il une meilleure façon de faire cela? Merci. PS: je veux vérifier s'il est vide pour ne sauvegarder que DataFrames'il n'est pas vide

101 apache-spark apache-spark-sql

14

Comment charger un fichier local dans sc.textFile, au lieu de HDFS

Je suis le grand tutoriel sur les étincelles donc j'essaye à 46m: 00s de charger le README.mdmais échoue à ce que je fais est ceci: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") …

100 scala apache-spark

10

Filtrer la colonne de dataframe Pyspark avec la valeur Aucun

J'essaie de filtrer un dataframe PySpark qui a Nonecomme valeur de ligne: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] et je peux filtrer correctement avec une valeur de chaîne: df[df.dt_mvmt == '2016-03-31'] # some results here mais cela échoue: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mais il y …

100 python apache-spark dataframe pyspark apache-spark-sql

5

comment changer une colonne Dataframe du type String en type Double dans pyspark

J'ai un dataframe avec une colonne sous forme de chaîne. Je voulais changer le type de colonne en type Double dans PySpark. Voici le chemin que j'ai fait: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Je voulais juste savoir, est-ce la bonne façon de le faire, car en exécutant …

99 python apache-spark dataframe pyspark apache-spark-sql

8

Comment créer un DataFrame vide avec un schéma spécifié?

Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.

94 scala apache-spark dataframe apache-spark-sql

10

Comment configurer Spark sur Windows?

J'essaye de configurer Apache Spark sur Windows. Après avoir cherché un peu, je comprends que le mode autonome est ce que je veux. Quels binaires dois-je télécharger pour exécuter Apache Spark dans Windows? Je vois des distributions avec hadoop et cdh sur la page de téléchargement de Spark. Je n'ai …

93 windows apache-spark

14

Spark - Erreur "Une URL principale doit être définie dans votre configuration" lors de la soumission d'une application

J'ai une application Spark qui fonctionne sans problème en mode local, mais j'ai quelques problèmes lors de la soumission au cluster Spark. Les messages d'erreur sont les suivants: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) …

93 scala apache-spark

5

Renommer les noms de colonne d'un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFramedans Spark-Scala. à partir de maintenant, je propose le code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

2

Que signifient les nombres sur la barre de progression dans Spark-Shell?

Dans mon spark-shell, que signifient les entrées comme celles ci-dessous lorsque j'exécute une fonction? [Stage7:===========> (14174 + 5) / 62500]

92 apache-spark

Questions marquées «apache-spark»