Vue fréquentiste 👀
Dans un sens, nous pouvons considérer les deux régularisations comme «réduire les poids» ; L2 minimise la norme euclidienne des poids, tandis que L1 minimise la norme Manhattan. En suivant cette ligne de pensée, nous pouvons penser que les équipotentielles de L1 et L2 sont respectivement sphériques et en forme de diamant, donc L1 est plus susceptible de conduire à des solutions clairsemées, comme illustré dans Bishop's Pattern Recognition and Machine Learning :
Vue bayésienne 👀
Cependant, afin de comprendre comment les a priori sont liés au modèle linéaire , nous devons comprendre l' interprétation bayésienne de la régression linéaire ordinaire . Le blog de Katherine Bailey est une excellente lecture pour cela. En résumé, nous supposons des erreurs iid normalement distribuées dans notre modèle linéaire
y = θ⊤X + ϵ
Nyje, i = 1 , 2 , … , Nϵk∼ N( 0 , σ)
yp ( y | X , θ ; ϵ ) = N( θ⊤X , σ)
Il s'avère que ... L'estimateur du maximum de vraisemblance est identique à la minimisation de l'erreur quadratique entre les valeurs de sortie prévues et réelles sous l'hypothèse de normalité de l'erreur.
θ^MLE= argmaxθbûcheP( y| θ)= argminθ∑i = 1n( yje- θ⊤Xje)2
La régularisation comme une mise en avant des poids
Si nous devions placer un a priori non uniforme sur les poids de la régression linéaire, l'estimation de la probabilité maximale a posteriori (MAP) serait:
θ^CARTE= argmaxθbûcheP( y| θ)+logP( θ )
P( θ )θ
P( θ )θ
Maintenant, nous avons un autre point de vue sur la raison pour laquelle mettre un Laplace avant sur les poids est plus susceptible d'induire une rareté: parce que la distribution de Laplace est plus concentrée autour de zéro , nos poids sont plus susceptibles d'être nuls.