Questions marquées «apache-spark»

Apache Spark est un moteur de traitement de données distribué open source écrit en Scala fournissant une API unifiée et des ensembles de données distribués aux utilisateurs. Les cas d'utilisation d'Apache Spark sont souvent liés à l'apprentissage automatique / profond, au traitement des graphiques.


12
java.io.IOException: impossible de localiser l'exécutable null \ bin \ winutils.exe dans les binaires Hadoop. spark Eclipse sur Windows 7
Je ne peux pas exécuter un sparktravail simple dans Scala IDE(projet Maven spark) installé surWindows 7 La dépendance du noyau Spark a été ajoutée. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() Erreur: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at …


5
Spark DataFrame groupBy et tri dans l'ordre décroissant (pyspark)
J'utilise pyspark (Python 2.7.9 / Spark 1.3.1) et j'ai un Dataframe GroupObject dont j'ai besoin pour filtrer et trier dans l'ordre décroissant. Essayer d'y parvenir via ce morceau de code. group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) Mais cela génère l'erreur suivante. sort() got an unexpected keyword argument 'ascending'

12
Erreur Mac Spark-Shell lors de l'initialisation de SparkContext
J'ai essayé de démarrer spark 1.6.0 (spark-1.6.0-bin-hadoop2.4) sur Mac OS Yosemite 10.10.5 en utilisant "./bin/spark-shell". Il a l'erreur ci-dessous. J'ai également essayé d'installer différentes versions de Spark mais toutes ont la même erreur. C'est la deuxième fois que j'exécute Spark. Ma précédente exécution fonctionne bien. log4j:WARN No appenders could be …


18
Comment définir la version python du pilote dans Spark?
J'utilise spark 1.4.0-rc2 pour pouvoir utiliser python 3 avec spark. Si j'ajoute export PYSPARK_PYTHON=python3à mon fichier .bashrc, je peux exécuter spark de manière interactive avec python 3. Cependant, si je veux exécuter un programme autonome en mode local, j'obtiens une erreur: Exception: Python in worker has different version 3.4 than …





3
Comment corriger l'erreur `` TypeError: un entier est requis (octets de type obtenus) '' lors de la tentative d'exécution de pyspark après l'installation de spark 2.4.4
J'ai installé OpenJDK 13.0.1 et python 3.8 et spark 2.4.4. Les instructions pour tester l'installation consistent à exécuter. \ Bin \ pyspark à partir de la racine de l'installation spark. Je ne sais pas si j'ai raté une étape de l'installation de spark, comme la définition d'une variable d'environnement, mais …

1
pandasUDF et pyarrow 0.15.0
J'ai récemment commencé à obtenir un tas d'erreurs sur un certain nombre de pysparktravaux exécutés sur des clusters EMR. Les erros sont java.lang.IllegalArgumentException at java.nio.ByteBuffer.allocate(ByteBuffer.java:334) at org.apache.arrow.vector.ipc.message.MessageSerializer.readMessage(MessageSerializer.java:543) at org.apache.arrow.vector.ipc.message.MessageChannelReader.readNext(MessageChannelReader.java:58) at org.apache.arrow.vector.ipc.ArrowStreamReader.readSchema(ArrowStreamReader.java:132) at org.apache.arrow.vector.ipc.ArrowReader.initialize(ArrowReader.java:181) at org.apache.arrow.vector.ipc.ArrowReader.ensureInitialized(ArrowReader.java:172) at org.apache.arrow.vector.ipc.ArrowReader.getVectorSchemaRoot(ArrowReader.java:65) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:162) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.read(ArrowPythonRunner.scala:122) at org.apache.spark.api.python.BasePythonRunner$ReaderIterator.hasNext(PythonRunner.scala:406) at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec$$anon$2.<init>(ArrowEvalPythonExec.scala:98) at org.apache.spark.sql.execution.python.ArrowEvalPythonExec.evaluate(ArrowEvalPythonExec.scala:96) at …


3
Application de la fonction Python à DataFrame groupé Pandas - quelle est l'approche la plus efficace pour accélérer les calculs?
J'ai affaire à un Pandas DataFrame assez volumineux - mon ensemble de données ressemble à une dfconfiguration suivante : import pandas as pd import numpy as np #--------------------------------------------- SIZING PARAMETERS : R1 = 20 # .repeat( repeats = R1 ) R2 = 10 # .repeat( repeats = R2 ) R3 …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.