Questions marquées «apache-spark»

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.


8
Comment stocker des objets personnalisés dans un jeu de données?
Selon Présentation des ensembles de données Spark : Alors que nous attendons avec impatience Spark 2.0, nous prévoyons quelques améliorations intéressantes aux ensembles de données, en particulier: ... Encodeurs personnalisés - alors que nous générons actuellement des encodeurs pour une grande variété de types, nous aimerions ouvrir une API pour …


8
Comment sélectionner la première ligne de chaque groupe?
J'ai un DataFrame généré comme suit: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Les résultats ressemblent à: +----+--------+----------+ |Hour|Category|TotalValue| +----+--------+----------+ | 0| cat26| 30.9| | 0| cat13| 22.1| | 0| cat95| 19.6| | 0| cat105| 1.3| | 1| cat67| 28.5| | 1| cat4| 26.8| | 1| cat13| 12.6| | 1| …

3
Comment les étapes sont-elles divisées en tâches dans Spark?
Supposons pour ce qui suit qu'un seul travail Spark est en cours d'exécution à chaque instant. Ce que j'obtiens si loin Voici ce que je comprends de ce qui se passe dans Spark: Lors de la création d'un SparkContext, chaque nœud de travail démarre un exécuteur. Les exécuteurs sont des …
143 apache-spark 

14
Spark - charger le fichier CSV en tant que DataFrame?
Je voudrais lire un CSV dans Spark et le convertir en DataFrame et le stocker en HDFS avec df.registerTempTable("table_name") J'ai essayé: scala> val df = sqlContext.load("hdfs:///csv/file/dir/file.csv") Erreur que j'ai obtenue: java.lang.RuntimeException: hdfs:///csv/file/dir/file.csv is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 59, …


2
Comment ajouter une colonne constante dans un Spark DataFrame?
Je veux ajouter une colonne dans un DataFrameavec une valeur arbitraire (c'est la même chose pour chaque ligne). J'obtiens une erreur lorsque j'utilise withColumncomme suit: dt.withColumn('new_column', 10).head(5) --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-50-a6d0257ca2be> in <module>() 1 dt = (messages 2 .select(messages.fromuserid, messages.messagetype, floor(messages.datetime/(1000*60*5)).alias("dt"))) ----> 3 dt.withColumn('new_column', 10).head(5) /Users/evanzamir/spark-1.4.1/python/pyspark/sql/dataframe.pyc …


3
Apache Spark: map vs mapPartitions?
Quelle est la différence entre un RDD map et une mapPartitionsméthode? Et flatMapse comporte comme mapou comme mapPartitions? Merci. (modifier) ​​c'est-à-dire quelle est la différence (soit sémantiquement, soit en termes d'exécution) entre def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: …


9
Comment ajouter une nouvelle colonne à un Spark DataFrame (à l'aide de PySpark)?
J'ai un Spark DataFrame (utilisant PySpark 1.5.1) et j'aimerais ajouter une nouvelle colonne. J'ai essayé ce qui suit sans succès: type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours", spark_new_col["new_col"]) J'ai également eu une erreur en utilisant ceci: my_df_spark.withColumn("hours", …

12
Comment définir la mémoire Apache Spark Executor
Comment puis-je augmenter la mémoire disponible pour les nœuds exécuteurs Apache Spark? J'ai un fichier de 2 Go qui convient au chargement dans Apache Spark. J'utilise Apache Spark pour le moment sur 1 machine, donc le pilote et l'exécuteur sont sur la même machine. La machine dispose de 8 Go …

10
Comment imprimer le contenu de RDD?
J'essaie d'imprimer le contenu d'une collection sur la console Spark. J'ai un type: linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3] Et j'utilise la commande: scala> linesWithSessionId.map(line => println(line)) Mais ceci est imprimé: res1: org.apache.spark.rdd.RDD [Unit] = MappedRDD [4] sur la carte à: 19 Comment puis-je écrire le RDD sur la console ou l'enregistrer …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.