Questions marquées «apache-spark»

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.

19
importation de pyspark dans le shell python
Ceci est une copie de la question de quelqu'un d'autre sur un autre forum qui n'a jamais reçu de réponse, alors j'ai pensé que je la poserais à nouveau ici, car j'ai le même problème. (Voir http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) J'ai installé Spark correctement sur ma machine et je suis capable d'exécuter …

12
Charger le fichier CSV avec Spark
Je suis nouveau sur Spark et j'essaie de lire les données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que cet appel me donne une liste des deux premières colonnes de mon fichier mais j'obtiens cette …

8
Comment écraser le répertoire de sortie dans Spark
J'ai une application Spark Streaming qui produit un ensemble de données pour chaque minute. J'ai besoin de sauvegarder / écraser les résultats des données traitées. Lorsque j'ai essayé d'écraser l'ensemble de données org.apache.hadoop.mapred.FileAlreadyExistsException arrête l'exécution. J'ai défini la propriété Spark set("spark.files.overwrite","true"), mais il n'y a pas de chance. Comment écraser …
108 apache-spark 



4
Application en cours d'exécution Spark Kill
J'ai une application Spark en cours d'exécution où elle occupe tous les cœurs où mes autres applications ne recevront aucune ressource. J'ai fait quelques recherches rapides et les gens ont suggéré d'utiliser YARN kill ou / bin / spark-class pour tuer la commande. Cependant, j'utilise la version CDH et / …


14
Comment charger un fichier local dans sc.textFile, au lieu de HDFS
Je suis le grand tutoriel sur les étincelles donc j'essaye à 46m: 00s de charger le README.mdmais échoue à ce que je fais est ceci: $ sudo docker run -i -t -h sandbox sequenceiq/spark:1.1.0 /etc/bootstrap.sh -bash bash-4.1# cd /usr/local/spark-1.1.0-bin-hadoop2.4 bash-4.1# ls README.md README.md bash-4.1# ./bin/spark-shell scala> val f = sc.textFile("README.md") …

10
Filtrer la colonne de dataframe Pyspark avec la valeur Aucun
J'essaie de filtrer un dataframe PySpark qui a Nonecomme valeur de ligne: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] et je peux filtrer correctement avec une valeur de chaîne: df[df.dt_mvmt == '2016-03-31'] # some results here mais cela échoue: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mais il y …

5
comment changer une colonne Dataframe du type String en type Double dans pyspark
J'ai un dataframe avec une colonne sous forme de chaîne. Je voulais changer le type de colonne en type Double dans PySpark. Voici le chemin que j'ai fait: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Je voulais juste savoir, est-ce la bonne façon de le faire, car en exécutant …


10
Comment configurer Spark sur Windows?
J'essaye de configurer Apache Spark sur Windows. Après avoir cherché un peu, je comprends que le mode autonome est ce que je veux. Quels binaires dois-je télécharger pour exécuter Apache Spark dans Windows? Je vois des distributions avec hadoop et cdh sur la page de téléchargement de Spark. Je n'ai …

14
Spark - Erreur "Une URL principale doit être définie dans votre configuration" lors de la soumission d'une application
J'ai une application Spark qui fonctionne sans problème en mode local, mais j'ai quelques problèmes lors de la soumission au cluster Spark. Les messages d'erreur sont les suivants: 16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579) at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390) at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595) …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.