Question sur la standardisation de la régression des crêtes

17

Hé les gars, j'ai trouvé un ou deux articles qui utilisent la régression de crête (pour les données de basket-ball). On m'a toujours dit de standardiser mes variables si je faisais une régression de crête, mais on me disait simplement de le faire parce que la crête était une variante d'échelle (la régression de crête ne faisait pas vraiment partie de notre cours, alors notre conférencier l'a parcourue).

Ces articles que j'ai lus n'ont pas standardisé leurs variables, ce que j'ai trouvé un peu surprenant. Ils se sont également retrouvés avec de grandes valeurs de lambda (autour du niveau 2000-4000) via la validation croisée, et on m'a dit que cela était dû à la non-standardisation des variables.

Comment le fait de laisser la ou les variables non normalisées conduit-il exactement à des valeurs lambda élevées et quelles sont les conséquences de la non-standardisation des variables en général? Est-ce vraiment un gros problème?

Toute aide est très appréciée.

regression standardization

— l_davies93
source

18

La régression de crête régularise la régression linéaire en imposant une pénalité à la taille des coefficients. Ainsi, les coefficients sont réduits vers zéro et l'un vers l'autre. Mais lorsque cela se produit et si les variables indépendantes n'ont pas la même échelle, le rétrécissement n'est pas juste. Deux variables indépendantes avec des échelles différentes auront des contributions différentes aux termes pénalisés, car le terme pénalisé est une somme de carrés de tous les coefficients. Pour éviter ce genre de problèmes, très souvent, les variables indépendantes sont centrées et mises à l'échelle afin d'avoir la variance 1.

[Modifier plus tard pour répondre au commentaire]

Supposons maintenant que vous ayez une variable indépendante $height$ . Maintenant, la taille humaine peut être mesurée en pouces, en mètres ou en kilomètres. Si mesuré en kilomètres, que dans la régression linéaire standard, je pense que cela donnera un terme de coefficient beaucoup plus grand que s'il était mesuré en millimètres.

Le terme de pénalisation avec lambda est le même que l'expression de la fonction de perte carrée par rapport à la somme des coefficients carrés inférieurs ou égaux à une constante donnée. Cela signifie qu'un lambda plus grand donne beaucoup d'espace à la somme au carré des coefficients, et un lambda inférieur un espace plus petit. Un espace plus grand ou plus petit signifie des valeurs absolues plus ou moins grandes des coefficients.

En n'utilisant pas la normalisation, l'adaptation du modèle peut nécessiter de grandes valeurs absolues des coefficients. Bien sûr, nous pourrions avoir une grande valeur de coefficient naturellement, en raison du rôle de la variable dans le modèle. Ce que je déclare, c'est que cette valeur peut avoir une valeur gonflée artificiellement en raison de la non-mise à l'échelle. Ainsi, la mise à l'échelle diminue également le besoin de grandes valeurs de coefficients. Ainsi, la valeur optimale de lambda serait généralement plus petite, ce qui correspond à une somme plus petite de valeurs carrées de coefficients.

— rapaio
source

Merci. Comment la normalisation ne conduirait-elle pas à une erreur de test estimée plus élevée (via une validation croisée), et donc à un lambda plus élevé, cependant?

— l_davies93

J'ai ajouté ma pensée dans la réponse

— rapaio

Je sais que c'est une vieille question, mais pourriez-vous expliquer pourquoi le paramètre de réglage devrait devenir plus grand, si nous transformons nos données de kilomètres en mètres par exemple

— Leo96

1

Bien que quatre ans en retard, j'espère que quelqu'un en bénéficiera ... D'après ce que j'ai compris, le coeff est le changement de variable cible pour un changement d'unité en variable indépendante (dy / dx). Supposons que nous étudions la relation entre le poids et la taille et que le poids est mesuré en kg. Lorsque nous utilisons des kilomètres pour la hauteur, vous pouvez imaginer la plupart des points de données (pour la taille humaine) emballés étroitement. Ainsi, pour un petit changement fractionnaire de la taille, il y aura un énorme changement de poids (en supposant que le poids augmente avec la hauteur). Le rapport dy / dx sera énorme. D'un autre côté, si la hauteur est mesurée en millimètres, les données seront largement réparties sur les attributs de hauteur. Un changement d'unité dans la taille n'aura aucun changement significatif dans le poids dy / dx sera très petit presque proche de 0.

— user3358819
source