Lors de l'apprentissage de Gradient Boosting, je n'ai jamais entendu parler de contraintes concernant les propriétés d'un "classificateur faible" que la méthode utilise pour construire et modéliser un modèle. Cependant, je ne pouvais pas imaginer une application de Go utilisant une régression linéaire, et en fait, après avoir effectué certains tests, cela ne fonctionne pas. Je testais l'approche la plus standard avec un gradient de somme des résidus au carré et en additionnant les modèles ultérieurs.
Le problème évident est que les résidus du premier modèle sont remplis de manière à ce qu'il n'y ait plus de ligne de régression à ajuster. Mon autre observation est qu’une somme de modèles de régression linéaire ultérieurs peut également être représentée sous la forme d’un modèle de régression unique (en ajoutant tous les interceptions et les coefficients correspondants). Je ne peux donc pas imaginer comment cela pourrait améliorer le modèle. La dernière observation est qu'une régression linéaire (l'approche la plus typique) utilise la somme des résidus au carré en tant que fonction de perte - la même que celle utilisée par GB.
J'ai également envisagé de réduire le taux d'apprentissage ou de n'utiliser qu'un sous-ensemble de prédicteurs pour chaque itération, mais cela pourrait toujours se résumer à une représentation modèle unique, donc je suppose que cela n'apporterait aucune amélioration.
Qu'est-ce que j'oublie ici? La régression linéaire est-elle en quelque sorte inappropriée avec Gradient Boosting? Est-ce parce que la régression linéaire utilise la somme des résidus au carré comme fonction de perte? Existe-t-il des contraintes particulières sur les prédicteurs faibles afin qu’ils puissent être appliqués au renforcement du gradient?