Questions marquées «scikit-learn»

Une bibliothèque d'apprentissage automatique pour Python. Utilisez cette balise pour toute question sur le sujet qui (a) implique scikit-learn en tant que partie critique de la question ou de la réponse attendue, et (b) ne se limite pas à la façon d'utiliser scikit-learn.

3
Arbres boostés par gradient XGBoost vs Python Sklearn
J'essaie de comprendre comment fonctionne XGBoost. Je comprends déjà comment les arbres boostés par le gradient fonctionnent sur Python sklearn. Ce qui n'est pas clair pour moi, c'est si XGBoost fonctionne de la même manière, mais plus rapidement, ou s'il existe des différences fondamentales entre celui-ci et l'implémentation de python. …

2
Métriques de classification multi-étiquettes sur scikit
J'essaie de construire un classificateur multi-étiquettes afin d'affecter des sujets aux documents existants à l'aide de scikit Je suis en train de traiter mes documents en les passant par les TfidfVectorizerétiquettes à travers le MultiLabelBinarizeret en créant un OneVsRestClassifieravec un SGDClassifiercomme estimateur. Cependant, lorsque je teste mon classificateur, je n'obtiens …

2
La forêt aléatoire est sur-adaptée?
J'expérimente avec des forêts aléatoires avec scikit-learn et j'obtiens d'excellents résultats de mon ensemble d'entraînement, mais des résultats relativement médiocres sur mon ensemble de test ... Voici le problème (inspiré du poker) que j'essaie de résoudre: étant donné les cartes fermées du joueur A, les cartes fermées du joueur B …

3
Comment calculer les erreurs types des coefficients d'une régression logistique
J'utilise scikit-learn de Python pour former et tester une régression logistique. scikit-learn renvoie les coefficients de régression des variables indépendantes, mais il ne fournit pas les erreurs standard des coefficients. J'ai besoin de ces erreurs standard pour calculer une statistique de Wald pour chaque coefficient et, à son tour, comparer …


3
Pourquoi ne pas utiliser les «équations normales» pour trouver des coefficients de moindres carrés simples?
J'ai vu cette liste ici et je ne pouvais pas croire qu'il y avait tant de façons de résoudre les moindres carrés. Les «équations normales» sur Wikipédia semblaient être une méthode assez simple: α^β^= y¯- β^X¯,= ∑ni = 1( xje- x¯) ( yje- y¯)∑ni = 1( xje- x¯)2α^=y¯-β^X¯,β^=∑je=1n(Xje-X¯)(yje-y¯)∑je=1n(Xje-X¯)2 {\displaystyle {\begin{aligned}{\hat …




7
La forêt aléatoire est trop adaptée
J'essaie d'utiliser la régression aléatoire des forêts dans scikits-learn. Le problème est que j'obtiens une erreur de test très élevée: train MSE, 4.64, test MSE: 252.25. Voici à quoi ressemblent mes données: (bleu: données réelles, vert: prévu): J'utilise 90% pour la formation et 10% pour le test. Voici le code …

3
Régression logistique: Scikit Learn vs glmnet
J'essaie de dupliquer les résultats de sklearnla bibliothèque de régression logistique en utilisant le glmnetpackage dans R. À partir de la documentation desklearn régression logistique , il essaie de minimiser la fonction de coût sous pénalité l2 min w , c 1minw , c12wTw + C∑i = 1NJournal( exp( - …

3
Méthodes pour contourner le problème des données manquantes dans l'apprentissage automatique
Presque toutes les bases de données que nous voulons faire des prédictions à l'aide d'algorithmes d'apprentissage automatique trouveront des valeurs manquantes pour certaines caractéristiques. Il existe plusieurs approches pour résoudre ce problème, pour exclure les lignes qui ont des valeurs manquantes jusqu'à ce qu'elles se remplissent avec les valeurs moyennes …

2
Différence entre la sélection d'entités basée sur la «régression F» et basée sur les valeurs ?
La comparaison d'entités utilise-t-elle F-regressionla même chose que la corrélation individuelle d'entités avec l'étiquette et l'observation de la valeur ?R2R2R^2 J'ai souvent vu mes collègues utiliser une F regressionsélection de fonctionnalités dans leur pipeline d'apprentissage automatique à partir de sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Certains me disent s'il vous plaît - pourquoi cela …

2
Pourquoi la fonction d'amorçage scikit-learn rééchantillonne-t-elle l'ensemble de test?
Lors de l'utilisation du bootstrap pour l'évaluation de modèles, j'ai toujours pensé que les échantillons hors sac étaient directement utilisés comme ensemble de test. Cependant, cela ne semble pas être le cas pour l' approche obsolète de scikit-learnBootstrap , qui semble construire l'ensemble de test à partir d'un dessin avec …

2
Scikit bonne façon d'étalonner les classificateurs avec CalibratedClassifierCV
Scikit a CalibratedClassifierCV , qui nous permet d'étalonner nos modèles sur une paire X, y particulière. Il indique également clairement quedata for fitting the classifier and for calibrating it must be disjoint. S'ils doivent être disjoints, est-il légitime de former le classificateur avec les éléments suivants? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.