Questions marquées «scikit-learn»

Scikit-learn est un module Python comprenant un outil simple et efficace pour l'apprentissage automatique, l'exploration de données et l'analyse de données. Il est construit sur NumPy, SciPy et matplotlib. Il est distribué sous la licence BSD 3-Clause.

2
Pouvez-vous expliquer la différence entre SVC et LinearSVC dans scikit-learn?
J'ai récemment commencé à apprendre à travailler avec sklearnet je viens de découvrir ce résultat particulier. J'ai utilisé l' digitsensemble de données disponible dans sklearnpour essayer différents modèles et méthodes d'estimation. Lorsque j'ai testé un modèle de machine à vecteurs de support sur les données, j'ai découvert qu'il existe deux …
19 svm  scikit-learn 

1
Comment gérer les étiquettes de chaînes dans une classification multi-classes avec des keras?
Je suis novice en apprentissage automatique et en kéros et je travaille actuellement sur un problème de classification d'images multi-classes en utilisant des kéros. L'entrée est l'image balisée. Après un certain prétraitement, les données d'entraînement sont représentées dans la liste Python comme: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] «chien», «chat» et …

4
Améliorez la vitesse de mise en œuvre de t-sne en python pour les énormes données
Je voudrais faire une réduction de dimensionnalité sur près d'un million de vecteurs chacun avec 200 dimensions ( doc2vec). j'utiliseTSNE implémentation du sklearn.manifoldmodule pour cela et le problème majeur est la complexité du temps. Même avec method = barnes_hut, la vitesse de calcul est encore faible. Un certain temps, même …

1
Algorithmes pour le clustering de texte
J'ai un problème de regrouper une énorme quantité de phrases en groupes par leur signification. Ceci est similaire à un problème lorsque vous avez beaucoup de phrases et que vous souhaitez les regrouper par leur signification. Quels algorithmes sont suggérés pour ce faire? Je ne connais pas le nombre de …

5
Fusionner des données rares et denses dans l'apprentissage automatique pour améliorer les performances
J'ai des caractéristiques clairsemées qui sont prédictives, j'ai aussi des caractéristiques denses qui sont également prédictives. J'ai besoin de combiner ces fonctionnalités pour améliorer les performances globales du classificateur. Maintenant, le problème est que lorsque j'essaie de les combiner, les entités denses ont tendance à dominer davantage les entités clairsemées, …



5
agrandir la carte thermique de Seaborn
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Méthode de notation OOB RandomForestClassifier
L'implémentation de forêt aléatoire dans scikit-learn utilise-t-elle la précision moyenne comme méthode de notation pour estimer l'erreur de généralisation avec des échantillons hors sac? Ceci n'est pas mentionné dans la documentation, mais la méthode score () rapporte la précision moyenne. J'ai un ensemble de données très déséquilibré et j'utilise l'AUC …

5
Prédiction de similarité de phrase
Je cherche à résoudre le problème suivant: j'ai un ensemble de phrases comme ensemble de données et je veux pouvoir taper une nouvelle phrase et trouver la phrase à laquelle la nouvelle est la plus similaire dans l'ensemble de données. Un exemple ressemblerait à: Nouvelle phrase: " I opened a …

2
Comment fonctionne SelectKBest?
Je regarde ce tutoriel: https://www.dataquest.io/mission/75/improving-your-submission À la section 8, trouver les meilleures fonctionnalités, il montre le code suivant. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

3
Pandas Dataframe à DMatrix
J'essaie d'exécuter xgboost dans scikit learn. Et j'utilise uniquement des Pandas pour charger des données dans la trame de données. Comment suis-je censé utiliser pandas df avec xgboost. Je suis confus par la routine DMatrix requise pour exécuter xgboost algo.

1
Importance des caractéristiques avec des caractéristiques catégorielles à cardinalité élevée pour la régression (variable dépendante numérique)
J'essayais d'utiliser les importances de fonctionnalités de Random Forests pour effectuer une sélection de fonctionnalités empiriques pour un problème de régression où toutes les fonctionnalités sont catégoriques et beaucoup d'entre elles ont de nombreux niveaux (de l'ordre de 100-1000). Étant donné que l'encodage à chaud crée une variable fictive pour …


1
Sélection de fonctionnalités à l'aide d'importances de fonctionnalités dans des forêts aléatoires avec scikit-learn
J'ai tracé les importances des fonctionnalités dans des forêts aléatoires avec scikit-learn . Afin d'améliorer la prédiction à l'aide de forêts aléatoires, comment puis-je utiliser les informations de tracé pour supprimer des entités? C'est-à-dire comment repérer si une fonctionnalité est inutile ou pire encore une diminution des performances des forêts …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.