Apache Spark est un système informatique en cluster open source qui vise à rendre l'analyse des données rapide - à la fois rapide à exécuter et rapide à écrire, initialement développé dans l'AMPLab de l'UC Berkeley.
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
Je suis très nouveau sur Scala et Spark, et je travaille sur des exercices autodidactes utilisant des statistiques de baseball. J'utilise une classe de cas pour créer un RDD et attribuer un schéma aux données, puis je le transforme en DataFrame afin que je puisse utiliser SparkSQL pour sélectionner des …
Considérons une trame de données pyspark composée d'éléments «nuls» et d'éléments numériques. En général, les éléments numériques ont des valeurs différentes. Comment est-il possible de remplacer toutes les valeurs numériques de la trame de données par une valeur numérique constante (par exemple par la valeur 1)? Merci d'avance! Exemple pour …
Je travaille à la mise en place d'un ensemble de machines virtuelles pour expérimenter avec Spark avant de dépenser et de dépenser de l'argent pour construire un cluster avec du matériel. Note rapide: je suis un universitaire avec une formation en apprentissage automatique appliqué et je travaille un peu en …
J'utilise le bloc-notes Ipython pour travailler avec des applications pyspark. J'ai un fichier CSV avec beaucoup de colonnes catégorielles pour déterminer si le revenu tombe sous ou au-dessus de la plage 50k. Je voudrais effectuer un algorithme de classification prenant toutes les entrées pour déterminer la plage de revenu. J'ai …
La question Comment prédire la note d'un nouvel utilisateur dans un modèle ALS formé à Spark? (Nouveau = pas vu pendant le temps de formation) Le problème Je suis le tutoriel officiel de Spark ALS ici: http://ampcamp.berkeley.edu/big-data-mini-course/movie-recommendation-with-mllib.html Je suis en mesure de construire un bon recommandeur avec un MSE décent, …
On m'a confié cette tâche pour analyser les journaux du serveur de notre application qui contient les journaux d'exceptions, les journaux des événements, les journaux de base de données, etc. Je suis nouveau dans l'apprentissage automatique, nous utilisons Spark avec recherche élastique et Sparks MLlib (ou PredictionIO). Le résultat serait …
J'ai un grand ensemble de données que je dois diviser en groupes selon des paramètres spécifiques. Je veux que le travail soit traité aussi efficacement que possible. Je peux imaginer deux façons de le faire Option 1 - Créer une carte à partir du RDD et du filtre d'origine def …
J'ai lu l' explication de la convolution et je la comprends dans une certaine mesure. Quelqu'un peut-il m'aider à comprendre comment cette opération est liée à la convolution dans les réseaux neuronaux convolutionnels? Le filtre est-il une fonction gqui applique du poids?
Nous utilisons .cache()sur RDD pour la mise en cache persistante d'un ensemble de données, ma préoccupation est quand cette mise en cache expirera?. dt = sc.parallelize([2, 3, 4, 5, 6]) dt.cache()
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 4 ans . Je travaille sur un projet et …
J'ai un DataFrame avec IDF de certains mots calculés. Par exemple (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on Donnez maintenant une requête Q, je peux calculer le TF-IDF de cette requête. Comment calculer la similitude cosinus de la requête avec tous les documents dans la trame de données (il y a …
Dans python sklearn, il existe plusieurs algorithmes (par exemple la régression, la forêt aléatoire ... etc.) qui ont le paramètre class_weight pour gérer les données non équilibrées. Cependant, je ne trouve pas un tel paramètre pour les algorithmes MLLib. Existe-t-il un plan d'implémentation de class_weight pour certains algorithmes MLLib? Ou …
J'ai un script python écrit avec Spark Context et je veux l'exécuter. J'ai essayé d'intégrer IPython à Spark, mais je n'ai pas pu le faire. J'ai donc essayé de définir le chemin d'allumage [dossier / bin d'installation] comme variable d'environnement et j'ai appelé la commande spark-submit dans l'invite cmd. Je …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.