Questions marquées «rdd»


13
Spark - répartition () vs coalesce ()
Selon Learning Spark Gardez à l'esprit que la répartition de vos données est une opération assez coûteuse. Spark a également une version optimisée de repartition()appelée coalesce()qui permet d'éviter le mouvement des données, mais uniquement si vous diminuez le nombre de partitions RDD. Une différence que j'obtiens est qu'avec repartition()le nombre …


2
Performances Spark pour Scala vs Python
Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de …

5
(Pourquoi) devons-nous appeler le cache ou persister sur un RDD
Lorsqu'un ensemble de données distribuées résilient (RDD) est créé à partir d'un fichier texte ou d'une collection (ou d'un autre RDD), devons-nous appeler explicitement «cache» ou «persist» pour stocker les données RDD en mémoire? Ou les données RDD sont-elles stockées de manière distribuée dans la mémoire par défaut? val textFile …
171 scala  apache-spark  rdd 


3
Apache Spark: map vs mapPartitions?
Quelle est la différence entre un RDD map et une mapPartitionsméthode? Et flatMapse comporte comme mapou comme mapPartitions? Merci. (modifier) ​​c'est-à-dire quelle est la différence (soit sémantiquement, soit en termes d'exécution) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.