Questions marquées «apache-spark»

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.


13
Spark - répartition () vs coalesce ()
Selon Learning Spark Gardez à l'esprit que la répartition de vos données est une opération assez coûteuse. Spark a également une version optimisée de repartition()appelée coalesce()qui permet d'éviter le mouvement des données, mais uniquement si vous diminuez le nombre de partitions RDD. Une différence que j'obtiens est qu'avec repartition()le nombre …


12
Spark java.lang.OutOfMemoryError: espace de tas Java
Mon cluster: 1 maître, 11 esclaves, chaque nœud a 6 Go de mémoire. Mes paramètres: spark.executor.memory=4g, Dspark.akka.frameSize=512 Voici le problème: Tout d'abord , j'ai lu certaines données (2,19 Go) de HDFS vers RDD: val imageBundleRDD = sc.newAPIHadoopFile(...) Deuxièmement , faites quelque chose sur ce RDD: val res = imageBundleRDD.map(data => …

7
Tâche non sérialisable: java.io.NotSerializableException lors de l'appel de la fonction en dehors de la fermeture uniquement sur les classes et non les objets
Obtenir un comportement étrange lors de l'appel d'une fonction en dehors d'une fermeture: quand la fonction est dans un objet tout fonctionne lorsque la fonction est dans une classe, obtenez: Tâche non sérialisable: java.io.NotSerializableException: test Le problème est que j'ai besoin de mon code dans une classe et non un …



13
Comment afficher le contenu d'une colonne complète dans une trame de données Spark?
J'utilise spark-csv pour charger des données dans un DataFrame. Je veux faire une simple requête et afficher le contenu: val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show() Le col semble tronqué: scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| …



20
Comment arrêter l'affichage des messages INFO sur la console Spark?
Je voudrais arrêter divers messages qui arrivent sur Spark Shell. J'ai essayé de modifier le log4j.propertiesfichier afin d'arrêter ces messages. Voici le contenu de log4j.properties # Define the root logger with appender file log4j.rootCategory=WARN, console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Settings to quiet third party logs …

2
Performances Spark pour Scala vs Python
Je préfère Python à Scala. Mais, comme Spark est écrit nativement dans Scala, je m'attendais à ce que mon code s'exécute plus rapidement dans la version Scala que dans la version Python pour des raisons évidentes. Avec cette hypothèse, j'ai pensé apprendre et écrire la version Scala d'un code de …

10
Comment lire plusieurs fichiers texte dans un seul RDD?
Je veux lire un tas de fichiers texte à partir d'un emplacement hdfs et effectuer un mappage dessus dans une itération à l'aide de spark. JavaRDD<String> records = ctx.textFile(args[1], 1); est capable de lire un seul fichier à la fois. Je veux lire plus d'un fichier et les traiter comme …
179 apache-spark 

5
(Pourquoi) devons-nous appeler le cache ou persister sur un RDD
Lorsqu'un ensemble de données distribuées résilient (RDD) est créé à partir d'un fichier texte ou d'une collection (ou d'un autre RDD), devons-nous appeler explicitement «cache» ou «persist» pour stocker les données RDD en mémoire? Ou les données RDD sont-elles stockées de manière distribuée dans la mémoire par défaut? val textFile …
171 scala  apache-spark  rdd 


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.