Questions marquées «bagging»

L'ensachage ou l'agrégation bootstrap est un cas particulier de moyennage modèle. Étant donné un ensemble d'entraînement standard, l'ensachage génèrem nouveaux ensembles d'entraînement par bootstrapping, puis les résultats de l'utilisation d'une méthode d'entraînement sur le mles ensembles de données générés sont moyennés. L'ensachage peut stabiliser les résultats de certaines méthodes instables telles que les arbres.







1
Boosting et ensachage des arbres (XGBoost, LightGBM)
Il existe de nombreux articles de blog, vidéos YouTube, etc. sur les idées d' ensachage ou de renforcement des arbres. Ma compréhension générale est que le pseudo-code pour chacun est: Ensachage: Prélever N échantillons aléatoires de x% des échantillons et y% des fonctionnalités Ajustez votre modèle (par exemple, arbre de …

1
Quelle méthode de comparaison multiple utiliser pour un modèle lmer: lsmeans ou glht?
J'analyse un ensemble de données à l'aide d'un modèle à effets mixtes avec un effet fixe (condition) et deux effets aléatoires (participant en raison de la conception et de la paire du sujet). Le modèle a été généré avec le lme4package: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Ensuite, j'ai effectué un test de rapport de …

2
Pourquoi la fonction d'amorçage scikit-learn rééchantillonne-t-elle l'ensemble de test?
Lors de l'utilisation du bootstrap pour l'évaluation de modèles, j'ai toujours pensé que les échantillons hors sac étaient directement utilisés comme ensemble de test. Cependant, cela ne semble pas être le cas pour l' approche obsolète de scikit-learnBootstrap , qui semble construire l'ensemble de test à partir d'un dessin avec …



3
La forêt aléatoire et l'amplification sont-elles paramétriques ou non paramétriques?
En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...). Breiman critique les modèles de données (paramétriques) car ils sont …

1
Pourquoi ne pas toujours utiliser l'apprentissage d'ensemble?
Il me semble que l'apprentissage d'ensemble donnera toujours de meilleures performances prédictives qu'avec une seule hypothèse d'apprentissage. Alors, pourquoi ne les utilisons-nous pas tout le temps? Je suppose que c'est peut-être à cause de limitations informatiques? (même alors, nous utilisons des prédicteurs faibles, donc je ne sais pas).

2
Pourquoi un arbre ensaché / un arbre forestier aléatoire a-t-il un biais plus élevé qu'un arbre de décision unique?
Si nous considérons un arbre de décision complet (c'est-à-dire un arbre de décision non élagué), il présente une variance élevée et un faible biais. L'ensachage et les forêts aléatoires utilisent ces modèles à variance élevée et les agrègent afin de réduire la variance et ainsi améliorer la précision des prévisions. …

1
Prédiction probabiliste de forêt aléatoire vs vote majoritaire
Scikit learn semble utiliser la prédiction probabiliste au lieu du vote majoritaire pour la technique d'agrégation du modèle sans expliquer pourquoi (1.9.2.1. Forêts aléatoires). Y a-t-il une explication claire pourquoi? De plus, existe-t-il un bon article ou article de synthèse sur les différentes techniques d'agrégation de modèles pouvant être utilisées …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.