Random forest est un classificateur d'apprentissage automatique basé sur le choix de sous-ensembles aléatoires de variables pour chaque arbre et l'utilisation de la sortie d'arbre la plus fréquente comme classification globale.
Je fais quelques problèmes sur une application d'arbre de décision / forêt aléatoire. J'essaie d'adapter un problème comportant à la fois des chiffres et des chaînes (telles que le nom du pays). Maintenant, dans la bibliothèque, scikit-learn prend uniquement des nombres en tant que paramètres, mais je souhaite injecter les …
J'ai obtenu ValueError lors de la prévision de données de test à l'aide d'un modèle RandomForest. Mon code: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) L'erreur: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Comment trouver les mauvaises …
J'essaie de former un modèle d'augmentation de gradient sur plus de 50k exemples avec 100 fonctionnalités numériques. XGBClassifiergère 500 arbres en 43 secondes sur ma machine, alors qu'il GradientBoostingClassifierne gère que 10 arbres (!) en 1 minute et 2 secondes :( Je n'ai pas pris la peine d'essayer de faire …
Quand utiliserait-on Random Forestplus SVMet vice versa? Je comprends cela cross-validationet la comparaison de modèles est un aspect important du choix d'un modèle, mais ici j'aimerais en savoir plus sur les règles de base et l'heuristique des deux méthodes. Quelqu'un peut-il expliquer les subtilités, les forces et les faiblesses des …
Je suis cet exemple sur le site Web scikit-learn pour effectuer une classification multi-sorties avec un modèle de forêt aléatoire. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = …
Je n'étais pas clair sur quelques concepts: XGBoost convertit les apprenants faibles en apprenants forts. Quel est l'avantage de faire cela? Combiner de nombreux apprenants faibles au lieu d'utiliser simplement un seul arbre? Random Forest utilise divers échantillons d'arbre pour créer un arbre. Quel est l'avantage de cette méthode au …
J'ai lu autour de Random Forests, mais je ne peux pas vraiment trouver une réponse définitive au problème du sur-ajustement. Selon le document original de Breiman, ils ne devraient pas suremballer lors de l'augmentation du nombre d'arbres dans la forêt, mais il semble qu'il n'y ait pas de consensus à …
Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine indique que le fait …
J'ai un problème de classification binaire: Environ 1000 échantillons dans le kit de formation 10 attributs, y compris binaire, numérique et catégorique Quel algorithme est le meilleur choix pour ce type de problème? Par défaut, je vais commencer par SVM (préliminaire ayant des valeurs d'attributs nominales converties en fonctionnalités binaires), …
J'utilise l'exemple OpenCV letter_recog.cpp pour expérimenter sur des arbres aléatoires et d'autres classificateurs. Cet exemple a des implémentations de six classificateurs - arbres aléatoires, boosting, MLP, kNN, Bayes naïfs et SVM. Un ensemble de données de reconnaissance de lettres UCI avec 20000 instances et 16 fonctionnalités est utilisé, que j'ai …
Je crée un corr()df à partir d'un df d'origine. Le corr()df est sorti 70 X 70 et il est impossible de visualiser le heatmap ... sns.heatmap(df). Si j'essaie d'afficher le corr = df.corr(), le tableau ne correspond pas à l'écran et je peux voir toutes les corrélations. Est-ce un moyen …
L'implémentation de forêt aléatoire dans scikit-learn utilise-t-elle la précision moyenne comme méthode de notation pour estimer l'erreur de généralisation avec des échantillons hors sac? Ceci n'est pas mentionné dans la documentation, mais la méthode score () rapporte la précision moyenne. J'ai un ensemble de données très déséquilibré et j'utilise l'AUC …
J'utilise Python pour exécuter un modèle de forêt aléatoire sur mon jeu de données déséquilibré (la variable cible était une classe binaire). Lors du fractionnement de l'ensemble de données de formation et de test, j'ai eu du mal à utiliser un échantillonnage stratifié (comme le code illustré) ou non. Jusqu'à …
La page Wikipédia qui cite "Les éléments de l'apprentissage statistique" dit: Typiquement, pour un problème de classification avec fonctionnalités, ⌊ √ppp fonctions p ⌋sont utilisées dans chaque division.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Je comprends que cette supposition est assez bonne et qu'elle a probablement été confirmée par des preuves empiriques, mais y …
J'utilise scikit-learn Random Forest Classifier et je veux tracer l'importance des fonctionnalités, comme dans cet exemple . Cependant, mon résultat est complètement différent, dans le sens où l'écart-type de l'importance des fonctionnalités est presque toujours plus important que l'importance des fonctionnalités elle-même (voir l'image jointe). Est-il possible d'avoir un tel …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.