La régression de crête régularise la régression linéaire en imposant une pénalité à la taille des coefficients. Ainsi, les coefficients sont réduits vers zéro et l'un vers l'autre. Mais lorsque cela se produit et si les variables indépendantes n'ont pas la même échelle, le rétrécissement n'est pas juste. Deux variables indépendantes avec des échelles différentes auront des contributions différentes aux termes pénalisés, car le terme pénalisé est une somme de carrés de tous les coefficients. Pour éviter ce genre de problèmes, très souvent, les variables indépendantes sont centrées et mises à l'échelle afin d'avoir la variance 1.
[Modifier plus tard pour répondre au commentaire]
Supposons maintenant que vous ayez une variable indépendante h e i gh t. Maintenant, la taille humaine peut être mesurée en pouces, en mètres ou en kilomètres. Si mesuré en kilomètres, que dans la régression linéaire standard, je pense que cela donnera un terme de coefficient beaucoup plus grand que s'il était mesuré en millimètres.
Le terme de pénalisation avec lambda est le même que l'expression de la fonction de perte carrée par rapport à la somme des coefficients carrés inférieurs ou égaux à une constante donnée. Cela signifie qu'un lambda plus grand donne beaucoup d'espace à la somme au carré des coefficients, et un lambda inférieur un espace plus petit. Un espace plus grand ou plus petit signifie des valeurs absolues plus ou moins grandes des coefficients.
En n'utilisant pas la normalisation, l'adaptation du modèle peut nécessiter de grandes valeurs absolues des coefficients. Bien sûr, nous pourrions avoir une grande valeur de coefficient naturellement, en raison du rôle de la variable dans le modèle. Ce que je déclare, c'est que cette valeur peut avoir une valeur gonflée artificiellement en raison de la non-mise à l'échelle. Ainsi, la mise à l'échelle diminue également le besoin de grandes valeurs de coefficients. Ainsi, la valeur optimale de lambda serait généralement plus petite, ce qui correspond à une somme plus petite de valeurs carrées de coefficients.