Dans quelles conditions les machines de renforcement de gradient surpassent-elles les forêts aléatoires?

La machine de boosting de gradient de Friedman peut -elle obtenir de meilleures performances que la forêt aléatoire de Breiman ? Si oui, dans quelles conditions ou quel type de jeu de données peut-il améliorer gbm?

— user22062
source

Il n'y a aucun moyen de le dire a priori; vous devez l'essayer.

— bayerj

eh bien, dans la pratique, Boosting surpasse presque toujours les RF ... Bien que je ne sache pas vraiment pourquoi, je n'ai personnellement rencontré aucun cas où les RF ont surperformé Boosting.

— Antoine

@Antoine apprendre avec des données sans étiquette et / ou du bruit d'étiquette est un cas d'utilisation particulièrement terrible pour la stimulation.

— Marc Claesen

Eh bien, RF et Boosting sont principalement utilisés pour les tâches d'apprentissage supervisé, même s'il est parfois vrai que RF peut être utilisé pour le clustering. Adaboost n'est pas très résistant aux erreurs d'étiquetage en raison de la fonction de perte exponentielle qui est fortement influencée par le bruit, mais le renforcement du gradient stochastique dans le cas général (avec une déviance multinomiale par exemple) est plus robuste.

— Antoine

@MarcClaesen pourriez-vous jeter un oeil à cette question s'il vous plaît?

— Antoine

Réponses:

Ce qui suit explique pourquoi Boosting surpasse généralement Random Forest dans la pratique, mais je serais très intéressé de savoir quels autres facteurs différents peuvent expliquer l'avantage de Boosting sur RF dans des paramètres spécifiques.

$error=bias+variance$

D'autre part, Boosting réduit le biais (en ajoutant chaque nouvel arbre dans la séquence pour que ce qui a été manqué par l'arbre précédent soit capturé), mais aussi la variance (en combinant de nombreux modèles).

Ainsi, Boosting réduit les erreurs sur les deux fronts, tandis que RF ne peut réduire les erreurs qu'en réduisant la variance. Bien sûr, comme je l'ai dit, il pourrait y avoir d'autres explications pour les meilleures performances de Boosting observées dans la pratique. Par exemple, à la page 591 du livre susmentionné, il est dit que Boosting surpasse RF sur le problème de la sphère imbriquée parce que dans ce cas particulier, la véritable frontière de décision est additive . (?) Ils signalent également que Boosting fait mieux que RF pour le spam et les données sur le logement en Californie.

Caruana et Niculescu-Mizil 2006 ont également trouvé que Boosting surpassait les RF . Malheureusement, ils rapportent les résultats mais n'essaient pas d'expliquer ce qui les cause. Ils ont comparé les deux classificateurs (et bien d'autres) sur 11 problèmes de classification binaire pour 8 mesures de performances différentes.

— Antoine
source

Comme l'a dit bayerj, il n'y a aucun moyen de savoir a priori!

Les forêts aléatoires sont relativement faciles à calibrer: les paramètres par défaut de la plupart des implémentations (R ou Python, par exemple) donnent d'excellents résultats.

En revanche, les GBM sont difficiles à régler (un trop grand nombre d'arbres conduit à la sur-adaptation, la profondeur maximale est critique, le taux d'apprentissage et le nombre d'arbres agissent ensemble ...) et plus longs à former (les implémentations multithreads sont rares) . Un réglage mal effectué peut entraîner de faibles performances.

Cependant, d'après mon expérience, si vous passez suffisamment de temps sur les GBM, vous obtiendrez probablement de meilleures performances que la forêt aléatoire.

$m$

— RUser4512
source

A loosely performed tuning may lead to dramatic performance?Méfiez-vous des interprétations erronées, car en anglais dramaticsignifie très bon, exceptionnel, phénoménal, etc.! Je suppose que c'est le contraire de ce que vous vouliez dire ... De plus, avez-vous une explication quant à la raison pour laquelle les GBM soigneusement réglés surpassent les RF? C'est fondamentalement la question ...

— Antoine