- λ→∞ββ=0
(Mise à jour: veuillez consulter la réponse de Glen_b. Ce n'est pas la raison historique correcte!)
β^=(XTX+λI)−1XTY.
λI
n<p
β
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
car est strictement monotone et équivaut à
logminβ∈Rp||y−Xβ||2+λβTβ
qui devrait avoir l'air assez familier.
Nous voyons donc que si nous mettons un prior normal avec la moyenne 0 et la variance sur notre vecteur , la valeur de qui maximise la postérieure est l'estimateur de crête. Notez que ceci considère davantage comme un paramètre fréquentiste car il n'y a pas de précédent, mais on ne le sait pas, donc ce n'est pas complètement bayésien.σ2λββσ2
Edit: vous avez demandé à propos du cas où . Nous savons qu'un hyperplan dans est défini par exactement points. Si nous exécutons une régression linéaire et nous interpolons exactement nos données et nous obtenons . C’est une solution, mais c’est une solution terrible: notre performance sur les données futures sera très probablement catastrophique. Supposons maintenant que : il n'y a plus d'hyperplan unique défini par ces points. Nous pouvons adapter une multitude d'hyperplans, chacun avec 0 somme de carrés résiduelle.R p p n = p | | y - X ß | | 2 = 0 n < pn<pRppn=p||y−Xβ^||2=0n<p
Un exemple très simple: supposons que . Ensuite, nous aurons juste une ligne entre ces deux points. Supposons maintenant que mais que . Imaginez un avion avec ces deux points. Nous pouvons faire pivoter cet avion sans changer le fait que ces deux points y sont, donc il y a un nombre incalculable de modèles, tous avec une valeur parfaite de notre fonction objectif, de sorte que même au-delà de la question de la suréquipement, il est difficile de choisir lequel choisir.n = 2 p = 3n=p=2n=2p=3
En guise de commentaire final (suggestion de @ gung), LASSO (avec une pénalité ) est couramment utilisé pour les problèmes de grande dimension, car il effectue automatiquement une sélection variable (définit certains ). Heureusement, il s’avère que LASSO équivaut à trouver le mode postérieur lorsqu’on utilise un double exponentiel (ou Laplace) antérieur sur le vecteur . Le LASSO présente également certaines limites, telles que saturer à prédicteurs et ne pas gérer de manière idéale des groupes de prédicteurs corrélés, de sorte que le réseau élastique (combinaison convexe de pénalités et ) puisse être utilisé.β j = 0 β n L 1 L 2L1βj=0βnL1L2