Science des données apache-spark

3

Fusion de plusieurs trames de données par ligne dans PySpark

J'ai 10 trames de données pyspark.sql.dataframe.DataFrame, obtenues à partir randomSplitde (td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)maintenant , je veux rejoindre 9 td« s en une seule trame de données, comment dois - …

21 python apache-spark cross-validation pyspark

5

agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

Comment calculer la moyenne d'une colonne de trame de données et trouver les 10% supérieurs

Je suis très nouveau sur Scala et Spark, et je travaille sur des exercices autodidactes utilisant des statistiques de baseball. J'utilise une classe de cas pour créer un RDD et attribuer un schéma aux données, puis je le transforme en DataFrame afin que je puisse utiliser SparkSQL pour sélectionner des …

13 apache-spark scala

3

Remplacer toutes les valeurs numériques dans une trame de données pyspark par une valeur constante

Considérons une trame de données pyspark composée d'éléments «nuls» et d'éléments numériques. En général, les éléments numériques ont des valeurs différentes. Comment est-il possible de remplacer toutes les valeurs numériques de la trame de données par une valeur numérique constante (par exemple par la valeur 1)? Merci d'avance! Exemple pour …

12 python apache-spark

3

Problème avec IPython / Jupyter sur Spark (alias non reconnu)

Je travaille à la mise en place d'un ensemble de machines virtuelles pour expérimenter avec Spark avant de dépenser et de dépenser de l'argent pour construire un cluster avec du matériel. Note rapide: je suis un universitaire avec une formation en apprentissage automatique appliqué et je travaille un peu en …

11 python apache-spark pyspark ipython

2

Comment convertir des données catégorielles en données numériques dans Pyspark

J'utilise le bloc-notes Ipython pour travailler avec des applications pyspark. J'ai un fichier CSV avec beaucoup de colonnes catégorielles pour déterminer si le revenu tombe sous ou au-dessus de la plage 50k. Je voudrais effectuer un algorithme de classification prenant toutes les entrées pour déterminer la plage de revenu. J'ai …

11 python apache-spark categorical-data pyspark

1

Spark ALS: recommander aux nouveaux utilisateurs

La question Comment prédire la note d'un nouvel utilisateur dans un modèle ALS formé à Spark? (Nouveau = pas vu pendant le temps de formation) Le problème Je suis le tutoriel officiel de Spark ALS ici: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Je suis en mesure de construire un bon recommandeur avec un MSE décent, …

10 apache-spark recommender-system pyspark

1

Analyse du journal du serveur à l'aide de l'apprentissage automatique

On m'a confié cette tâche pour analyser les journaux du serveur de notre application qui contient les journaux d'exceptions, les journaux des événements, les journaux de base de données, etc. Je suis nouveau dans l'apprentissage automatique, nous utilisons Spark avec recherche élastique et Sparks MLlib (ou PredictionIO). Le résultat serait …

10 machine-learning predictive-modeling apache-spark

1

Spark, divisant de manière optimale un seul RDD en deux

J'ai un grand ensemble de données que je dois diviser en groupes selon des paramètres spécifiques. Je veux que le travail soit traité aussi efficacement que possible. Je peux imaginer deux façons de le faire Option 1 - Créer une carte à partir du RDD et du filtre d'origine def …

10 apache-spark pyspark

3

Relation entre la convolution en mathématiques et CNN

J'ai lu l' explication de la convolution et je la comprends dans une certaine mesure. Quelqu'un peut-il m'aider à comprendre comment cette opération est liée à la convolution dans les réseaux neuronaux convolutionnels? Le filtre est-il une fonction gqui applique du poids?

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Quand le cache expire-t-il pour un RDD dans pyspark?

Nous utilisons .cache()sur RDD pour la mise en cache persistante d'un ensemble de données, ma préoccupation est quand cette mise en cache expirera?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()

10 apache-spark pyspark

2

Quand choisir la régression linéaire ou l'arbre de décision ou la régression de forêt aléatoire? [fermé]

Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

Calculer la similitude du cosinus dans Apache Spark

J'ai un DataFrame avec IDF de certains mots calculés. Par exemple (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Donnez maintenant une requête Q, je peux calculer le TF-IDF de cette requête. Comment calculer la similitude cosinus de la requête avec tous les documents dans la trame de données (il y a …

9 machine-learning nlp apache-spark cosine-distance

4

Classe non équilibrée: class_weight pour les algorithmes ML dans Spark MLLib

Dans python sklearn, il existe plusieurs algorithmes (par exemple la régression, la forêt aléatoire ... etc.) qui ont le paramètre class_weight pour gérer les données non équilibrées. Cependant, je ne trouve pas un tel paramètre pour les algorithmes MLLib. Existe-t-il un plan d'implémentation de class_weight pour certains algorithmes MLLib? Ou …

8 machine-learning apache-spark unbalanced-classes weighted-data

4

Comment exécuter une application pyspark dans l'invite de commande Windows 8

J'ai un script python écrit avec Spark Context et je veux l'exécuter. J'ai essayé d'intégrer IPython à Spark, mais je n'ai pas pu le faire. J'ai donc essayé de définir le chemin d'allumage [dossier / bin d'installation] comme variable d'environnement et j'ai appelé la commande spark-submit dans l'invite cmd. Je …

8 python apache-spark pyspark ipython

Questions marquées «apache-spark»