Quels algorithmes d'ensachage sont dignes successeurs de Random Forest?


14

Pour booster les algorithmes, je dirais qu'ils ont assez bien évolué. Au début de 1995, AdaBoost a été introduit, puis après un certain temps, c'était Gradient Boosting Machine (GBM). Récemment, vers 2015, XGBoost a été introduit, ce qui est précis, gère le sur-ajustement et est devenu un gagnant de plusieurs compétitions Kaggle. En 2017, LightGBM a été introduit par Microsoft, il offre un temps de formation nettement inférieur à celui de XGBoost. De plus, CatBoost a été introduit par Yandex pour gérer les fonctionnalités catégorielles.

Random Forest a été introduit au début des années 2000, mais y a-t-il eu des dignes successeurs? Je pense que s'il existait un meilleur algorithme d'ensachage que Random Forest (qui peut être facilement appliqué en pratique), il aurait attiré l'attention dans des endroits comme Kaggle. Aussi, pourquoi le boosting est-il devenu la technique d'ensemble la plus populaire, est-ce parce que vous pouvez construire moins d'arbres pour une prédiction optimale?


1
adaBoost a été introduit en 1995, mais c'est un point mineur qui ne modifie pas votre thèse fondamentale.
jbowman

3
Depuis les forêts aléatoires, nous avons également vu l'introduction d' arbres extrêmement aléatoires , bien que je ne sois pas vraiment au courant de bonnes preuves que ces forêts aléatoires surpassent avec une cohérence, donc elles peuvent ne pas être un successeur "digne" ...
Jake Westfall

1
BART ( arxiv.org/abs/0806.3286 ) est un modèle bayésien qui a évolué à partir du seul arbre Bayesian CART et est inspiré des méthodes d'ensemble classiques. Cela vaut la peine d'être exploré.
Zen

le boosting est devenu plus populaire car il gère avec succès de nombreux problèmes avec les techniques des apprenants faibles
Refael

Les forêts avides régularisées méritent d'être mentionnées (lentes mais quelques bons résultats) et les forêts aléatoires quantiles pour leurs effets secondaires sympas.
Michael M

Réponses:


3

xgboost, catboost et lightgbm utilisent certaines caractéristiques de la forêt aléatoire (échantillonnage aléatoire des variables / observations), donc je pense qu'ils sont un successeur du boosting et du RF ensemble et tirent le meilleur parti des deux. ;)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.