Réconciliation des arbres de régression boostés (BRT), des modèles boostés généralisés (GBM) et de la machine de boosting de gradient (GBM)

Des questions:

Quelle est la différence entre les arbres de régression boostés (BRT) et les modèles boostés généralisés (GBM)? Peuvent-ils être utilisés de manière interchangeable? L'un est-il une forme spécifique de l'autre?
Pourquoi Ridgeway a-t-il utilisé l'expression "modèles de régression généralisée boostée" (GBM) pour décrire ce que Friedman avait précédemment proposé comme "machine de renforcement de gradient" (GBM)? Ces deux acronymes sont identiques, décrivent la même chose, mais dérivent de phrases différentes.

Contexte:

J'ai du mal à déterminer en quoi les termes BRT et GBM diffèrent. D'après ce que je comprends, les deux termes décrivent les arbres de classification et de régression qui ont la stochasticité incorporée par une sorte de boosting (par exemple, l'ensachage, le bootstrap, la validation croisée). Aussi, d'après ce que je comprends, le terme GBM a été inventé pour la première fois par Friedman (2001) dans son article "Greedy function approximation: a gradient boosting machine". Ridgeway a ensuite mis en œuvre la procédure décrite par Friedman en 2006 dans son package "Generalized Boosted Regression Models" (GBM). Dans mon domaine (écologie) Elith et al. (2008) a été le premier à démontrer l' gbmensemble de Ridgeway pour la modélisation de la distribution des espèces. Cependant, les auteurs d'Elith et al. utiliser le terme «arbre de régression boosté» (BRT) pour décrire Friedman et Ridgeway »

Je suis confus quant à savoir si ces termes peuvent être utilisés de manière interchangeable? Il est quelque peu déroutant qu'un auteur utilise le même acronyme (à partir d'une expression différente) pour décrire la même théorie qu'un auteur précédent a proposée. Il est également déroutant que le troisième auteur ait utilisé un terme complètement différent pour décrire cette théorie en termes écologiques.

Le mieux que je puisse trouver, c'est que les BRT sont une forme spécifique de GBM dans laquelle la distribution est binomiale, mais je n'en suis pas sûr.

Elith et al. définir des arbres de régression boostés comme ça… " Le modèle BRT final peut être compris comme un modèle de régression additive dans lequel les termes individuels sont des arbres simples, ajustés de façon progressive et par étapes "(Elith et al. 2008).

machine-learning boosting gbm

— GNG
source

Je ne peux pas entrer dans la tête des auteurs et vous dire, mais il semble plausible que les noms disent tout. Le boost est une méthode qui utilise une séquence d'apprenants faibles. La méthode par excellence serait les «petits arbres» tels que les souches. Si vous augmentez un modèle d'arbre de régression, vous obtenez des arbres de régression boostés. A priori, on pouvait booster d'autres méthodes, y compris des méthodes catégoriques, et renvoyer ce qu'on appelle une machine de boosting de gradient qui n'était pas un arbre de régression boosté.

— meh

Je ne me souviens pas des détails, mais un livre que j'ai lu a montré comment si on utilisait des souches pour les arbres, le résultat ressemblait beaucoup à un gam.

— meh

Comme @aginensky l'a mentionné dans le fil des commentaires, il est impossible de se mettre dans la tête de l'auteur, mais BRT est très probablement une description plus claire du gbmprocessus de modélisation de ''. Et puisque vous avez posé des questions sur les arbres de boosting, de dégradés et de régression, voici mes explications en anglais simples des termes. Pour info, le CV n'est pas une méthode de stimulation mais plutôt une méthode pour aider à identifier les paramètres optimaux du modèle grâce à un échantillonnage répété. Voir ici pour quelques excellentes explications du processus.

Le boost est un type de méthode d'ensemble . Les méthodes d'ensemble se réfèrent à un ensemble de méthodes par lesquelles les prédictions finales sont faites en agrégeant les prédictions à partir d'un certain nombre de modèles individuels. L'amplification, l'ensachage et l'empilement sont des méthodes d'ensemble largement mises en œuvre. L'empilement consiste à ajuster un certain nombre de modèles différents individuellement (de n'importe quelle structure de votre choix), puis à les combiner dans un modèle linéaire unique. Cela se fait en comparant les prédictions des modèles individuels avec la variable dépendante. LOOCV SSE est normalement utilisé pour déterminer les coefficients de régression et chaque modèle est traité comme une fonction de base (à mon avis, c'est très, très similaire à GAM). De même, l' ensachageimplique l'ajustement d'un certain nombre de modèles de structure similaire à des échantillons bootstrap. Au risque de rappeler une fois de plus l'évidence, l'empilage et l'ensachage sont des méthodes d'ensemble parallèles.

Le boosting est cependant une méthode séquentielle. Friedman et Ridgeway décrivent tous deux le processus algorithmique dans leurs articles, donc je ne vais pas l'insérer ici juste cette seconde, mais la version anglaise simple (et quelque peu simplifiée) est que vous ajustez un modèle après l'autre, chaque modèle suivant cherchant à minimiser résidus pondérés par les erreurs du modèle précédent (le paramètre de rétrécissement est le poids attribué à l'erreur résiduelle de chaque prédiction de l'itération précédente et plus vous pouvez vous le permettre, mieux c'est). Dans un sens abstrait, vous pouvez considérer le renforcement comme un processus d'apprentissage très humain où nous appliquons les expériences passées à de nouvelles itérations de tâches que nous devons effectuer.

Maintenant, la partie gradient de l'ensemble provient de la méthode utilisée pour déterminer le nombre optimal de modèles (appelés itérations dans la gbmdocumentation) à utiliser pour la prédiction afin d'éviter le sur-ajustement. Entraînement GBM (noir) et fonctions de perte d'erreur CV (vert)

Comme vous pouvez le voir sur le visuel ci-dessus (il s'agissait d'une application de classification, mais il en va de même pour la régression), l'erreur CV chute assez fortement au début, car l'algorithme sélectionne les modèles qui entraîneront la plus grande baisse de l'erreur CV avant d'aplatir. et remonter à nouveau alors que l'ensemble commence à sur-équiper. Le nombre d'itération optimal est celui correspondant au point d'inflexion de la fonction d'erreur CV (gradient de fonction égal à 0), qui est commodément illustré par la ligne pointillée bleue.

L' gbmimplémentation de Ridgeway utilise des arbres de classification et de régression et même si je ne peux pas prétendre lire son esprit, j'imagine que la vitesse et la facilité (pour ne rien dire de leur robustesse aux manigances de données) avec lesquelles les arbres peuvent être adaptés ont eu un effet assez significatif sur son choix de technique de modélisation. Cela étant dit, bien que je puisse me tromper, je ne peux pas imaginer une raison strictement théorique pour laquelle pratiquement aucune autre technique de modélisation n'aurait pu être mise en œuvre. Encore une fois, je ne peux pas prétendre connaître l'esprit de Ridgeway, mais j'imagine la partie généralisée degbmLe nom fait référence à la multitude d'applications potentielles. Le package peut être utilisé pour effectuer une régression (linéaire, Poisson et quantile), binomiale (en utilisant un certain nombre de fonctions de perte différentes) et une classification multinomiale, et une analyse de survie (ou au moins un calcul de fonction de risque si la distribution de coxph est une indication).

Le document d'Elith semble vaguement familier (je pense que je l'ai rencontré l'été dernier en examinant des méthodes de visualisation adaptées aux gbm) et, si la mémoire est bonne, il comportait une extension de la gbmbibliothèque, se concentrant sur le réglage automatique des modèles pour la régression (comme dans la distribution gaussienne). et non binomiales) et une génération de tracé améliorée. J'imagine que la nomenclature RBT est là pour aider à clarifier la nature de la technique de modélisation, alors que GBM est plus général.

J'espère que cela aide à clarifier certaines choses.

— habu
source