Augmentation de gradient pour la régression linéaire - pourquoi cela ne fonctionne-t-il pas?

35

Lors de l'apprentissage de Gradient Boosting, je n'ai jamais entendu parler de contraintes concernant les propriétés d'un "classificateur faible" que la méthode utilise pour construire et modéliser un modèle. Cependant, je ne pouvais pas imaginer une application de Go utilisant une régression linéaire, et en fait, après avoir effectué certains tests, cela ne fonctionne pas. Je testais l'approche la plus standard avec un gradient de somme des résidus au carré et en additionnant les modèles ultérieurs.

Le problème évident est que les résidus du premier modèle sont remplis de manière à ce qu'il n'y ait plus de ligne de régression à ajuster. Mon autre observation est qu’une somme de modèles de régression linéaire ultérieurs peut également être représentée sous la forme d’un modèle de régression unique (en ajoutant tous les interceptions et les coefficients correspondants). Je ne peux donc pas imaginer comment cela pourrait améliorer le modèle. La dernière observation est qu'une régression linéaire (l'approche la plus typique) utilise la somme des résidus au carré en tant que fonction de perte - la même que celle utilisée par GB.

J'ai également envisagé de réduire le taux d'apprentissage ou de n'utiliser qu'un sous-ensemble de prédicteurs pour chaque itération, mais cela pourrait toujours se résumer à une représentation modèle unique, donc je suppose que cela n'apporterait aucune amélioration.

Qu'est-ce que j'oublie ici? La régression linéaire est-elle en quelque sorte inappropriée avec Gradient Boosting? Est-ce parce que la régression linéaire utilise la somme des résidus au carré comme fonction de perte? Existe-t-il des contraintes particulières sur les prédicteurs faibles afin qu’ils puissent être appliqués au renforcement du gradient?

— Matek
source

Intuitivement, j'ai tendance à penser que vous ne devriez pas utiliser de classificateurs car leur somme correspond au même type de classificateur. par exemple, la somme des fonctions linéaires est une fonction linéaire.

— user18764

Je sais que cela est ancien, mais ma compréhension est que l'étape d'accélération minimise la fonction de perte entre les résidus actuels et l'apprenant de base (qui dans votre cas est une régression linéaire) multipliée par le taux d'apprentissage. Ainsi, alors que l'apprenant de base minimise mse, la fonction de perte utilisée par le rappel pourrait être identique à MAPE?

— David Waterworth

35

Qu'est-ce que j'oublie ici?

Je ne pense pas que vous manque vraiment quelque chose!

Une autre observation est qu'une somme de modèles de régression linéaire ultérieurs peut également être représentée sous la forme d'un modèle de régression unique (en ajoutant tous les interceptions et les coefficients correspondants). Je ne peux donc pas imaginer comment cela pourrait améliorer le modèle. La dernière observation est qu'une régression linéaire (l'approche la plus typique) utilise la somme des résidus au carré en tant que fonction de perte - la même que celle utilisée par GB.

Il me semble que vous en êtes arrivé là et que vous avez donné un bref aperçu de la preuve que la régression linéaire ne fait que battre les régressions linéaires supérieures dans ce contexte.

Pour être pédant, les deux méthodes tentent de résoudre le problème d'optimisation suivant

\hat{β} = {argmin}_{β} (y - X β)^{t} (y - X β)

$\hat \beta = \text{argmin}_\beta (y - X \beta)^t (y - X \beta)$

La régression linéaire observe simplement que vous pouvez le résoudre directement, en trouvant la solution à l'équation linéaire

X^{t} X β = X^{t} y

$X^t X \beta = X^t y$

$\beta$

Le boosting, que votre classificateur faible soit une régression à une ou plusieurs variables, vous donne une séquence de vecteurs de coefficients $\beta_1, \beta_2, \ldots$

X β_{1} + X β_{2} + \dots + X β_{n} = X (β_{1} + β_{2} + \dots + β_{n})

$X \beta_1 + X \beta_2 + \cdots + X \beta_n = X (\beta_1 + \beta_2 + \cdots + \beta_n)$

Chacune de ces étapes est choisie pour réduire davantage la somme des erreurs au carré. Mais nous aurions pu trouver la somme minimale possible d'erreurs au carré dans cette forme fonctionnelle en effectuant simplement une régression linéaire complète.

Une possible défense de relance dans cette situation pourrait être la régularisation implicite qu'elle fournit. Peut-être (je n'ai pas joué à cela), vous pouvez utiliser la fonctionnalité d'arrêt précoce d'un booster de gradient, avec une validation croisée, pour vous arrêter avant la régression linéaire complète. Cela fournirait une régularisation à votre régression, et éventuellement une aide à la suralimentation. Ceci n’est pas particulièrement pratique, car on dispose d’options très efficaces et bien comprises comme la régression de crête et le filet élastique dans ce cadre.

Le boosting brille quand il n’ya pas de forme fonctionnelle laconique autour. En renforçant les arbres de décision, la forme fonctionnelle du régresseur / classificateur évolue lentement pour s’ajuster aux données, ce qui aboutit souvent à des formes complexes que l’on n’aurait pas pu imaginer à la main. Quand une forme fonctionnelle simple est désirée, le renforcement ne va pas vous aider à la trouver (ou du moins, c'est probablement un moyen plutôt inefficace de la trouver).

— Matthew Drury
source

2

β

$\beta$

C'est une très bonne et claire réponse. Merci pour la confirmation / explication Matthew!

— Matek

"Le boosting brille quand il n'y a pas de forme fonctionnelle laconique autour." C'est la réponse que je cherche. Donc, je veux juste confirmer, voulez - vous dire ma réponse question est oui, mais pas un seul usage apprenant linéaire modèle en tant que base ?, stats.stackexchange.com/questions/231286/...

— Haitao Du

5

La matrice de projection des moindres carrés est donnée par

$X(X^{T}X)^{-1}X^{T}$

$\hat{y}$

$\hat{y} = X(X^{T}X)^{-1}X^{T}y$

Supposons que vous tenez une régression et que vous calculiez ensuite vos résidus

$e = y - \hat{y} = y - X(X^{T}X)^{-1}X^{T}y$

$\hat{y}_{2}$

$\hat{y}_{2} = X(X^{T}X)^{-1}X^{T}e \\ \quad = X(X^{T}X)^{-1}X^{T} (y - X(X^{T}X)^{-1}X^{T}y) \\ \quad = X(X^{T}X)^{-1}X^{T}y - X(X^{T}X)^{-1}X^{T}X(X^{T}X)^{-1}X^{T}y \\ \quad = X(X^{T}X)^{-1}X^{T}y - X(X^{T}X)^{-1}X^{T}y \\ \quad = 0$

A reason for this is that by construction the residual vector e from the initial regression is orthogonal to the X Space i. e. $\hat{y}$ is a orthogonal projection from y onto the X space (you'll find nice pictures visualizing this in the literature).

This means the simple approach of fitting a regression and then fitting a new regression on the residuals from the first regression will not result in anything senseful because X is entirely uncorrelated with e.

I write this because you said there is not really a new line to fit which corresponds to the derivations above.

— kirtap
source