À utiliser pour les questions de science des données liées au langage de programmation Python. Non destiné aux questions générales de codage (-> stackoverflow).
Supposons que nous ayons la trame de données suivante avec plusieurs valeurs pour une certaine colonne: categories 0 - ["A", "B"] 1 - ["B", "C", "D"] 2 - ["B", "D"] Comment obtenir une table comme celle-ci? "A" "B" "C" "D" 0 - 1 1 0 0 1 - 0 1 …
Problème J'ai essayé d'utiliser des baies naïves sur un ensemble de données étiquetées de données sur la criminalité, mais j'ai obtenu de très mauvais résultats (précision de 7%). Naive Bayes fonctionne beaucoup plus rapidement que les autres alogorithmes que j'utilise, donc je voulais essayer de savoir pourquoi le score était …
Je veux utiliser l'allocation Dirichlet latente pour un projet et j'utilise Python avec la bibliothèque gensim. Après avoir trouvé les sujets, j'aimerais regrouper les documents en utilisant un algorithme tel que k-means (Idéalement, j'aimerais en utiliser un bon pour les clusters qui se chevauchent, donc toute recommandation est la bienvenue). …
Depuis interpoler et fillna méthode fait le même travail de remplissage na valeurs. Quelle est la différence fondamentale entre les deux. Quelle est l'importance d'avoir ces deux méthodes différentes ?? Quelqu'un peut-il m'expliquer en termes simples. J'ai déjà visité la documentation officielle et je voulais connaître la différence
J'ai un ensemble de données avec 19 colonnes et environ 250k lignes. J'ai travaillé avec de plus grands ensembles de données, mais cette fois, les Pandas ont décidé de jouer avec mes nerfs. J'ai essayé de diviser le jeu de données d'origine en 3 sous-cadres de données en fonction de …
Les experts dans mon domaine sont capables de prédire la probabilité d'un événement (pic binaire en jaune) 30 minutes avant qu'il ne se produise . La fréquence est ici de 1 seconde, cette vue représente quelques heures de données, j'ai encerclé en noir où devrait se trouver un motif "malveillant" …
Lorsqu'il est enregistré sur le disque à l'aide de cPickle: /programming/20662023/save-python-random-forest-model-to-file , ma forêt aléatoire est de 6,57 Go. with open('rforest.cpickle', 'wb') as f: cPickle.dump(rforest, f) Je veux utiliser la forêt elle-même pour faire des prédictions via une API python hébergée sur Heroku - bien sûr, cette taille de fichier …
J'utilise la bibliothèque seaborn pour générer des graphiques à barres en python. Je me demande quelles statistiques sont utilisées pour calculer les barres d'erreur, mais je ne trouve aucune référence à cela dans la documentation de barplot du seaborn . Je sais que les valeurs des barres sont calculées en …
À mesure que j'augmente le nombre d'arbres dans scikit learn 's GradientBoostingRegressor, j'obtiens de plus en plus de prédictions négatives, même s'il n'y a pas de valeurs négatives dans mon ensemble d'entraînement ou de test. J'ai environ 10 fonctionnalités, dont la plupart sont binaires. Certains des paramètres que je réglais …
Fermé . Cette question doit être plus ciblée . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question pour qu'elle se concentre sur un seul problème en modifiant ce post . Fermé il y a 2 ans . dans mon entreprise, nous traitons toutes …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour Data Science Stack Exchange. Fermé il y a 2 ans . Je voudrais supprimer toutes les lignes contenant des valeurs NaN …
Je veux faire des prévisions à un pas pour les séries chronologiques avec LSTM. Pour comprendre l'algorithme, je me suis construit un exemple de jouet: un simple processus autocorrélé. def my_process(n, p, drift=0, displacement=0): x = np.zeros(n) for i in range(1, n): x[i] = drift * i + p * …
J'essaie de faire une détection d'anomalie entre les séries temporelles # en utilisant Python et sklearn (mais d'autres suggestions de packages sont certainement les bienvenues!). J'ai un ensemble de 10 séries chronologiques; chaque série chronologique se compose de données collectées à partir de la valeur de couple d'un pneu (donc …
J'ai récemment appris comment un réseau neuronal vanille fonctionnerait, avec un nombre donné d'entrées, des nœuds cachés et le même nombre de sorties que les entrées. J'ai regardé divers articles liés au réseau neuronal récurrent, et je comprends le concept derrière, mais je n'arrive pas à comprendre certaines parties de …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.