Questions marquées «pyspark»

L'API Spark Python (PySpark) expose le modèle de programmation apache-spark à Python.


2
Performances Spark pour Scala vs Python
Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de …


2
Comment ajouter une colonne constante dans un Spark DataFrame?
Je veux ajouter une colonne dans un DataFrameavec une valeur arbitraire (c'est la même chose pour chaque ligne). J'obtiens une erreur lorsque j'utilise withColumncomme suit: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

9
Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?
J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) J'ai également eu une erreur en utilisant ceci: my_df_spark.withColumn("hours", …

19
importation de pyspark dans le shell python
Ceci est une copie de la question de quelqu'un d'autre sur un autre forum qui n'a jamais reçu de réponse, alors j'ai pensé que je la poserais à nouveau ici, car j'ai le même problème. (Voir http://geekple.com/blogs/feeds/Xgzu7/posts/351703064084736 ) J'ai installé Spark correctement sur ma machine et je suis capable d'exécuter …

12
Charger le fichier CSV avec Spark
Je suis nouveau sur Spark et j'essaie de lire les données CSV à partir d'un fichier avec Spark. Voici ce que je fais: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Je m'attendrais à ce que cet appel me donne une liste des deux premières colonnes de mon fichier mais j'obtiens cette …


4
Application en cours d'exécution Spark Kill
J'ai une application Spark en cours d'exécution où elle occupe tous les cœurs où mes autres applications ne recevront aucune ressource. J'ai fait quelques recherches rapides et les gens ont suggéré d'utiliser YARN kill ou / bin / spark-class pour tuer la commande. Cependant, j'utilise la version CDH et / …

10
Filtrer la colonne de dataframe Pyspark avec la valeur Aucun
J'essaie de filtrer un dataframe PySpark qui a Nonecomme valeur de ligne: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] et je peux filtrer correctement avec une valeur de chaîne: df[df.dt_mvmt == '2016-03-31'] # some results here mais cela échoue: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mais il y …

5
comment changer une colonne Dataframe du type String en type Double dans pyspark
J'ai un dataframe avec une colonne sous forme de chaîne. Je voulais changer le type de colonne en type Double dans PySpark. Voici le chemin que j'ai fait: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Je voulais juste savoir, est-ce la bonne façon de le faire, car en exécutant …

5
Spark DataFrame groupBy et tri dans l'ordre décroissant (pyspark)
J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère l'erreur suivante. sort() got an unexpected keyword argument 'ascending'

18
Comment définir la version python du pilote dans Spark?
J'utilise spark 1.4.0-rc2 pour pouvoir utiliser python 3 avec spark. Si j'ajoute export PYSPARK_PYTHON=python3à mon fichier .bashrc, je peux exécuter spark de manière interactive avec python 3. Cependant, si je veux exécuter un programme autonome en mode local, j'obtiens une erreur: Exception: Python in worker has different version 3.4 than …



En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.