La programmation apache-spark-sql

15

Différence entre DataFrame, Dataset et RDD dans Spark

Je me demande simplement quelle est la différence entre un RDDet DataFrame (Spark 2.0.0 DataFrame est un simple alias de type pour Dataset[Row]) dans Apache Spark? Pouvez-vous convertir l'un à l'autre?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

23

Comment puis-je modifier les types de colonnes dans DataFrame de Spark SQL?

Supposons que je fasse quelque chose comme: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string (nullable = true) |-- comment: string (nullable = true) |-- blank: string (nullable = true) df.show() …

152 scala apache-spark apache-spark-sql

8

Comment sélectionner la première ligne de chaque groupe?

J'ai un DataFrame généré comme suit: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Les résultats ressemblent à: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

143 sql scala apache-spark dataframe apache-spark-sql

14

Spark - charger le fichier CSV en tant que DataFrame?

Je voudrais lire un CSV dans Spark et le convertir en DataFrame et le stocker en HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai obtenue: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …

142 scala apache-spark hadoop apache-spark-sql hdfs

11

Comment convertir un objet rdd en dataframe dans Spark

Comment puis-je convertir un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) en Dataframe org.apache.spark.sql.DataFrame. J'ai converti un dataframe en rdd en utilisant .rdd. Après l'avoir traité, je veux le remettre dans le dataframe. Comment puis-je faire ceci ?

139 scala apache-spark apache-spark-sql rdd

2

Comment ajouter une colonne constante dans un Spark DataFrame?

Je veux ajouter une colonne dans un DataFrameavec une valeur arbitraire (c'est la même chose pour chaque ligne). J'obtiens une erreur lorsque j'utilise withColumncomme suit: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …

137 python apache-spark dataframe pyspark apache-spark-sql

6

Comment trier par colonne dans l'ordre décroissant dans Spark SQL?

J'ai essayé df.orderBy("col1").show(10)mais il a trié par ordre croissant. df.sort("col1").show(10)trie également par ordre décroissant. J'ai regardé stackoverflow et les réponses que j'ai trouvées étaient toutes obsolètes ou renvoyées à des RDD . J'aimerais utiliser le dataframe natif dans spark.

137 scala apache-spark apache-spark-sql

5

Comment définir le partitionnement de DataFrame?

J'ai commencé à utiliser Spark SQL et DataFrames dans Spark 1.4.0. Je souhaite définir un partitionneur personnalisé sur DataFrames, dans Scala, mais je ne vois pas comment faire cela. L'une des tables de données avec lesquelles je travaille contient une liste de transactions, par compte, silimar à l'exemple suivant. Account …

129 scala apache-spark dataframe apache-spark-sql partitioning

9

Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?

J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) J'ai également eu une erreur en utilisant ceci: my_df_spark.withColumn("hours", …

129 python apache-spark dataframe pyspark apache-spark-sql

14

Concaténer les colonnes dans Apache Spark DataFrame

Comment concaténer deux colonnes dans un DataFrame Apache Spark? Existe-t-il une fonction dans Spark SQL que nous pouvons utiliser?

116 sql apache-spark dataframe apache-spark-sql

14

Comment vérifier si Spark Dataframe est vide?

En ce moment, je dois utiliser df.count > 0pour vérifier si leDataFrame est vide ou non. Mais c'est un peu inefficace. Y a-t-il une meilleure façon de faire cela? Merci. PS: je veux vérifier s'il est vide pour ne sauvegarder que DataFrames'il n'est pas vide

101 apache-spark apache-spark-sql

10

Filtrer la colonne de dataframe Pyspark avec la valeur Aucun

J'essaie de filtrer un dataframe PySpark qui a Nonecomme valeur de ligne: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_mvmt=u'2016-03-30'), Row(dt_mvmt=u'2016-03-31')] et je peux filtrer correctement avec une valeur de chaîne: df[df.dt_mvmt == '2016-03-31'] # some results here mais cela échoue: df[df.dt_mvmt == None].count() 0 df[df.dt_mvmt != None].count() 0 Mais il y …

100 python apache-spark dataframe pyspark apache-spark-sql

5

comment changer une colonne Dataframe du type String en type Double dans pyspark

J'ai un dataframe avec une colonne sous forme de chaîne. Je voulais changer le type de colonne en type Double dans PySpark. Voici le chemin que j'ai fait: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show'])) Je voulais juste savoir, est-ce la bonne façon de le faire, car en exécutant …

99 python apache-spark dataframe pyspark apache-spark-sql

8

Comment créer un DataFrame vide avec un schéma spécifié?

Je veux créer DataFrameavec un schéma spécifié dans Scala. J'ai essayé d'utiliser JSON read (je veux dire lire un fichier vide) mais je ne pense pas que ce soit la meilleure pratique.

94 scala apache-spark dataframe apache-spark-sql

5

Renommer les noms de colonne d'un DataFrame dans Spark Scala

J'essaie de convertir tous les en-têtes / noms de colonnes d'un DataFramedans Spark-Scala. à partir de maintenant, je propose le code suivant qui ne remplace qu'un seul nom de colonne. for( i <- 0 to origCols.length - 1) { df.withColumnRenamed( df.columns(i), df.columns(i).toLowerCase ); }

93 scala apache-spark dataframe apache-spark-sql

Questions marquées «apache-spark-sql»