La stabilité numérique et le sur-ajustement sont en quelque sorte liés mais différents.
Le problème OLS classique:
Considérez le problème classique des moindres carrés:
minimize(over b)(y−Xb)T(y−Xb)
La solution est le classique . Une idée est que par la loi des grands nombres:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Par conséquent, l'estimation OLS converge également vers . (En termes d'algèbre linéaire, il s'agit de la projection linéaire de la variable aléatoire sur la plage linéaire des variables aléatoires .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Problèmes?
Mécaniquement, qu'est-ce qui peut mal tourner? Quels sont les problèmes possibles?
- Pour les petits échantillons, nos estimations d'échantillon de et peuvent être médiocres.E[xx′]E[xy]
- Si les colonnes de sont colinéaires (soit en raison de la colinéarité inhérente ou de la petite taille de l'échantillon), le problème aura un continuum de solutions! La solution n'est peut-être pas unique.
X
- Cela se produit si est un classement déficient.E[xx′]
- Cela se produit également si est déficient en rang en raison de la petite taille de l'échantillon par rapport au nombre de problèmes de régresseur.X′X
Le problème (1) peut conduire à un surajustement car l'estimation commence à refléter des modèles dans l'échantillon qui ne sont pas là dans la population sous-jacente. L'estimation peut refléter des modèles dans et qui n'existent pas réellement dans etb^1nX′X1nX′yE[xx′]E[xy]
Le problème (2) signifie qu'une solution n'est pas unique. Imaginez que nous essayons d'estimer le prix des chaussures individuelles, mais les paires de chaussures sont toujours vendues ensemble. C'est un problème mal posé, mais disons que nous le faisons quand même. Nous pouvons croire que le prix de la chaussure gauche plus le prix de la chaussure droite est égal à 50 $ , mais comment pouvons-nous trouver des prix individuels? Le prix de la chaussure gauche et le prix de la chaussure droite corrects? Comment choisir parmi toutes les possibilités?pl=45pr=5
Introduction de la pénalité :L2
Considérez maintenant:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Cela peut nous aider avec les deux types de problèmes. La pénalité pousse notre estimation de vers zéro. Cela fonctionne efficacement comme un bayésien avant que la distribution sur les valeurs des coefficients soit centrée autour de . Cela aide au sur-ajustement. Notre estimation reflétera à la fois les données et nos croyances initiales selon lesquelles est proche de zéro.L2b0b
50 $ L 2 p l = p r = 25L2 régularisation nous permet également toujours de trouver une solution unique à des problèmes mal posés. Si nous savons que le prix des chaussures gauche et droite s'élève à , la solution qui minimise également la norme est de choisir .$50L2pl=pr=25
Est-ce magique? Non. La régularisation n'est pas la même chose que l'ajout de données qui nous permettraient de répondre à la question. régularisation adopte dans un certain sens le point de vue que si vous manquez de données, choisissez des estimations plus proches de . 0L20