La programmation rdd

15

Différence entre DataFrame, Dataset et RDD dans Spark

Je me demande simplement quelle est la différence entre un RDDet DataFrame (Spark 2.0.0 DataFrame est un simple alias de type pour Dataset[Row]) dans Apache Spark? Pouvez-vous convertir l'un à l'autre?

258 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

Spark - répartition () vs coalesce ()

Selon Learning Spark Gardez à l'esprit que la répartition de vos données est une opération assez coûteuse. Spark a également une version optimisée de repartition()appelée coalesce()qui permet d'éviter le mouvement des données, mais uniquement si vous diminuez le nombre de partitions RDD. Une différence que j'obtiens est qu'avec repartition()le nombre …

254 apache-spark distributed-computing rdd

5

Quelle est la différence entre cache et persist?

En termes de RDDpersistance, quelles sont les différences entre cache()et persist()en étincelle?

202 apache-spark distributed-computing rdd

2

Performances Spark pour Scala vs Python

Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de …

183 scala performance apache-spark pyspark rdd

5

(Pourquoi) devons-nous appeler le cache ou persister sur un RDD

Lorsqu'un ensemble de données distribuées résilient (RDD) est créé à partir d'un fichier texte ou d'une collection (ou d'un autre RDD), devons-nous appeler explicitement «cache» ou «persist» pour stocker les données RDD en mémoire? Ou les données RDD sont-elles stockées de manière distribuée dans la mémoire par défaut? val textFile …

171 scala apache-spark rdd

11

Comment convertir un objet rdd en dataframe dans Spark

Comment puis-je convertir un RDD ( org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) en Dataframe org.apache.spark.sql.DataFrame. J'ai converti un dataframe en rdd en utilisant .rdd. Après l'avoir traité, je veux le remettre dans le dataframe. Comment puis-je faire ceci ?

139 scala apache-spark apache-spark-sql rdd

3

Apache Spark: map vs mapPartitions?

Quelle est la différence entre un RDD map et une mapPartitionsméthode? Et flatMapse comporte comme mapou comme mapPartitions? Merci. (modifier) c'est-à-dire quelle est la différence (soit sémantiquement, soit en termes d'exécution) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: …

133 performance scala apache-spark rdd

1

Que signifie «Stage Skipped» dans l'interface utilisateur Web d'Apache Spark?

Depuis mon interface utilisateur Spark. Que signifie ignoré?

87 apache-spark rdd

Questions marquées «rdd»