Pourquoi Ridge Regression fonctionne-t-il bien en présence de multicolinéarité?

J'apprends la régression des crêtes et je sais que la régression des crêtes a tendance à mieux fonctionner en présence de multicolinéarité. Je me demande pourquoi c'est vrai? Une réponse intuitive ou mathématique serait satisfaisante (les deux types de réponses seraient encore plus satisfaisants).

De plus, je sais que ce peut toujours être obtenue, mais comment bien le travail de régression de crête en présence de colinéarité exacte (une variable indépendante est une fonction linéaire d' une autre)? $\hat{\beta}$

multicollinearity ridge-regression

— TrynnaDoStat
source

Concernant votre deuxième question: Si vous avez une colinéarité exacte, vous pouvez simplement supprimer une des variables. Vous n'avez pas besoin de régression de crête.

— Peter Flom - Réintègre Monica

$x_1$ $x_2$ $y$ est la 3ème dimension) et il y a souvent un "meilleur" avion très clair. Mais avec la colinéarité, la relation est vraiment une ligne à travers un espace tridimensionnel avec des données dispersées autour d'elle. Mais la routine de régression essaie d'adapter un avion à une ligne, donc il y a un nombre infini d'avions qui se croisent parfaitement avec cette ligne, quel avion est choisi dépend des points d'influence dans les données, changez un peu ces points et le "meilleur" plan d'ajustement change un peu. La régression des crêtes a pour effet de tirer le plan choisi vers des modèles plus simples / plus sûrs (valeurs de biais vers 0). Pensez à une bande élastique de l'origine (0,0,0) à l'avion qui tire l'avion vers 0 tandis que les données l'éloignent pour un bon compromis.

— Greg Snow
source

@Trynna, il y a des photos illustrant ce que Greg a dit au sujet du problème de colinéarité.

— ttnphns

Il s'agit d'une très bonne explication géométrique expliquant pourquoi la multicollinéarité est un problème dans la régression OLS! Mais je ne comprends toujours pas pourquoi tirer l'avion à l'origine résout le problème.

— TrynnaDoStat

@TrynnaDoStat, La principale préoccupation est la variabilité des estimations, avec la multicolinéarité, un petit changement dans un seul point de données peut énormément balancer les estimations des coefficients (sans biais). En biaisant vers 0, il n'y a pas beaucoup de changement dans les estimations des coefficients (car cette bande élastique les tire vers 0) avec un changement mineur dans un seul point de données, ce qui réduit la variabilité.

— Greg Snow

Merci @ttnphns pour le lien vers les photos: sans cela, c'était assez difficile d'obtenir la réponse. Maintenant, la réponse de Greg est claire et ce dont j'avais besoin pour comprendre cette ligne dans ESLII (2e éd.): "Un coefficient positif extrêmement élevé sur une variable peut être annulé par un coefficient négatif tout aussi important sur son cousin corrélé. En imposant une contrainte de taille à la coefficients ce problème est atténué. "

— Tommaso Guerrini