À utiliser pour les questions de science des données liées au langage de programmation Python. Non destiné aux questions générales de codage (-> stackoverflow).
Je crée un flux de travail pour créer des modèles d'apprentissage automatique (dans mon cas, en utilisant Python pandaset des sklearnpackages) à partir de données extraites d'une très grande base de données (ici, Vertica via SQL et pyodbc), et une étape critique de ce processus consiste à imputer les données …
J'essaie de construire un système de recommandation en utilisant le filtrage collaboratif. J'ai les [user, movie, rating]informations habituelles . Je voudrais incorporer une fonctionnalité supplémentaire comme la «langue» ou la «durée du film». Je ne sais pas quelles techniques je pourrais utiliser pour un tel problème. Veuillez suggérer des références …
Je travaille sur l'amélioration d'un classifieur supervisé existant, pour classer les séquences {protéine} comme appartenant à une classe spécifique (précurseurs des hormones neuropeptidiques), ou non. Il y a environ 1 150 «positifs» connus, sur un fond d'environ 13 millions de séquences de protéines («fond inconnu / mal annoté»), ou environ …
J'ai fait un problème de classification et j'ai lu le code et les tutoriels de beaucoup de gens. Une chose que j'ai remarquée, c'est que beaucoup de gens prennent np.logou logde variable continue comme loan_amountou applicant_incomeetc. Je veux juste comprendre la raison derrière cela. Cela aide-t-il à améliorer la précision …
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
Dans le blog Keras sur la formation des convnets à partir de zéro , le code affiche uniquement le réseau fonctionnant sur les données de formation et de validation. Qu'en est-il des données de test? Les données de validation sont-elles les mêmes que les données de test (je pense que …
https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Les benchmarks data.table n'ont pas été mis à jour depuis 2014. J'ai entendu quelque part qui Pandasest maintenant plus rapide que data.table. Est-ce vrai? Quelqu'un a-t-il fait des repères? Je n'ai jamais utilisé Python auparavant mais envisagerais de changer si je pandaspeux battre data.table?
Quelle bibliothèque Python stable puis-je utiliser pour implémenter des modèles de Markov cachés? J'ai besoin qu'il soit raisonnablement bien documenté, car je n'ai jamais vraiment utilisé ce modèle auparavant. Sinon, existe-t-il une approche plus directe pour effectuer une analyse chronologique sur un ensemble de données à l'aide de HMM?
Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a …
J'espère que cette question est la plus appropriée sur ce site ... En Python, le nom de classe est généralement défini en utilisant la majuscule comme premier caractère, par exemple class Vehicle: ... Cependant, dans le domaine de l'apprentissage automatique, les données d'entraînement et de test sont souvent définies comme …
J'utilise Python pour exécuter un modèle de forêt aléatoire sur mon jeu de données déséquilibré (la variable cible était une classe binaire). Lors du fractionnement de l'ensemble de données de formation et de test, j'ai eu du mal à utiliser un échantillonnage stratifié (comme le code illustré) ou non. Jusqu'à …
J'ai un ensemble de données avec les spécifications suivantes: Ensemble de données d'apprentissage avec 193 176 échantillons avec 2 821 positifs Ensemble de données de test avec 82 887 échantillons avec 673 positifs Il y a 10 fonctionnalités. Je souhaite effectuer une classification binaire (0 ou 1). Le problème auquel …
Mode Analytics a une belle fonctionnalité de carte thermique ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Mais ce n'est pas propice à la comparaison des cartes (une seule par rapport). Ce qu'ils permettent, c'est que les données soient facilement tirées dans un bloc-notes en python enveloppé. Et puis, n'importe quelle image en python peut …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.