Science des données python

2

Où dans le flux de travail devons-nous traiter les données manquantes?

Je crée un flux de travail pour créer des modèles d'apprentissage automatique (dans mon cas, en utilisant Python pandaset des sklearnpackages) à partir de données extraites d'une très grande base de données (ici, Vertica via SQL et pyodbc), et une étape critique de ce processus consiste à imputer les données …

16 machine-learning python pandas scikit-learn

2

Recommander des films avec des fonctionnalités supplémentaires à l'aide du filtrage collaboratif

J'essaie de construire un système de recommandation en utilisant le filtrage collaboratif. J'ai les [user, movie, rating]informations habituelles . Je voudrais incorporer une fonctionnalité supplémentaire comme la «langue» ou la «durée du film». Je ne sais pas quelles techniques je pourrais utiliser pour un tel problème. Veuillez suggérer des références …

16 python r recommender-system

4

Bibliothèque Python pour la régression segmentée (ou régression par morceaux)

Je recherche une bibliothèque Python qui peut effectuer une régression segmentée (ou régression par morceaux) . Exemple :

16 python linear-regression library software-recommendation

3

Classification discriminatoire à une classe avec un fond négatif déséquilibré et hétérogène?

Je travaille sur l'amélioration d'un classifieur supervisé existant, pour classer les séquences {protéine} comme appartenant à une classe spécifique (précurseurs des hormones neuropeptidiques), ou non. Il y a environ 1 150 «positifs» connus, sur un fond d'environ 13 millions de séquences de protéines («fond inconnu / mal annoté»), ou environ …

16 machine-learning data-mining python classification

6

Quelle est la raison de la transformation logarithmique de quelques variables continues?

J'ai fait un problème de classification et j'ai lu le code et les tutoriels de beaucoup de gens. Une chose que j'ai remarquée, c'est que beaucoup de gens prennent np.logou logde variable continue comme loan_amountou applicant_incomeetc. Je veux juste comprendre la raison derrière cela. Cela aide-t-il à améliorer la précision …

16 machine-learning python classification scikit-learn

5

agrandir la carte thermique de Seaborn

Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Comment obtenir des prédictions avec Predict_Generator sur la diffusion en continu de données de test dans Keras?

Dans le blog Keras sur la formation des convnets à partir de zéro , le code affiche uniquement le réseau fonctionnant sur les données de formation et de validation. Qu'en est-il des données de test? Les données de validation sont-elles les mêmes que les données de test (je pense que …

16 machine-learning python deep-learning keras confusion-matrix

4

Les pandas sont-ils désormais plus rapides que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Les benchmarks data.table n'ont pas été mis à jour depuis 2014. J'ai entendu quelque part qui Pandasest maintenant plus rapide que data.table. Est-ce vrai? Quelqu'un a-t-il fait des repères? Je n'ai jamais utilisé Python auparavant mais envisagerais de changer si je pandaspeux battre data.table?

16 python r pandas data data.table

5

Bibliothèque Python pour implémenter des modèles de Markov cachés

Quelle bibliothèque Python stable puis-je utiliser pour implémenter des modèles de Markov cachés? J'ai besoin qu'il soit raisonnablement bien documenté, car je n'ai jamais vraiment utilisé ce modèle auparavant. Sinon, existe-t-il une approche plus directe pour effectuer une analyse chronologique sur un ensemble de données à l'aide de HMM?

15 python time-series markov-process

5

Prédiction de similarité de phrase

Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a …

15 python nlp scikit-learn similarity text

2

Pourquoi les variables des données de train et de test sont-elles définies en utilisant la lettre majuscule (en Python)?

J'espère que cette question est la plus appropriée sur ce site ... En Python, le nom de classe est généralement défini en utilisant la majuscule comme premier caractère, par exemple class Vehicle: ... Cependant, dans le domaine de l'apprentissage automatique, les données d'entraînement et de test sont souvent définies comme …

15 python dataset

2

Comment fonctionne SelectKBest?

Je regarde ce tutoriel: https://www.dataquest.io/mission/75/improving-your-submission À la section 8, trouver les meilleures fonctionnalités, il montre le code suivant. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

1

Un échantillonnage stratifié est-il nécessaire (forêt aléatoire, Python)?

J'utilise Python pour exécuter un modèle de forêt aléatoire sur mon jeu de données déséquilibré (la variable cible était une classe binaire). Lors du fractionnement de l'ensemble de données de formation et de test, j'ai eu du mal à utiliser un échantillonnage stratifié (comme le code illustré) ou non. Jusqu'à …

14 machine-learning python random-forest sampling training

2

Modèle de classification binaire pour les données asymétriques

J'ai un ensemble de données avec les spécifications suivantes: Ensemble de données d'apprentissage avec 193 176 échantillons avec 2 821 positifs Ensemble de données de test avec 82 887 échantillons avec 673 positifs Il y a 10 fonctionnalités. Je souhaite effectuer une classification binaire (0 ou 1). Le problème auquel …

14 machine-learning python classification logistic-regression

1

Heatmap sur une carte en Python

Mode Analytics a une belle fonctionnalité de carte thermique ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Mais ce n'est pas propice à la comparaison des cartes (une seule par rapport). Ce qu'ils permettent, c'est que les données soient facilement tirées dans un bloc-notes en python enveloppé. Et puis, n'importe quelle image en python peut …

14 python visualization geospatial

Questions marquées «python»