La régularisation L2 est équivalente au Prior Gaussien

56

Je continue à lire ceci et intuitivement je peux le voir, mais comment passer de la régularisation L2 à dire qu’il s’agit d’un Prior gaussien analytiquement? Il en va de même pour dire que L1 est équivalent à un précédent laplacien.

Toute autre référence serait géniale.

regression references regularization

— Anonyme
source

54

Imaginons que vous souhaitiez déduire un paramètre partir de certaines paires entrée-sortie observées . Supposons que les sorties sont linéairement liées aux entrées via et que les données sont corrompues par du bruit : $\beta$ $(x_1,y_1)\dots,(x_N,y_N)$ $\beta$ $\epsilon$

y_{n} = β x_{n} + ϵ,

$y_n = \beta x_n + \epsilon,$

où est le bruit gaussien avec une moyenne de et une variance . Cela donne lieu à une probabilité gaussienne: $\epsilon$ $0$ $\sigma^2$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2).$

Régularisons le paramètre en imposant le précédent gaussien où est un scalaire strictement positif. Par conséquent, en combinant la vraisemblance et le préalable, nous avons simplement: $\beta$ $\mathcal{N}(\beta|0,\lambda^{-1}),$ $\lambda$

\prod_{n = 1}^{N} N (y_{n} | β x_{n}, σ^{2}) N (β | 0, λ^{- 1}) .

$\prod_{n=1}^N \mathcal{N}(y_n|\beta x_n,\sigma^2) \mathcal{N}(\beta|0,\lambda^{-1}).$

Prenons le logarithme de l'expression ci-dessus. En abandonnant certaines constantes, nous obtenons:

\sum_{n = 1}^{N} - \frac{1}{σ^{2}} (y_{n} - β x_{n})^{2} - λ β^{2} + const .

$\sum_{n=1}^N -\frac{1}{\sigma^2}(y_n-\beta x_n)^2 - \lambda \beta^2 + \mbox{const}.$

Si nous maximisons l'expression ci-dessus en ce qui concerne , nous obtenons la soi-disant estimation a posteriori maximale de , ou estimation MAP pour résumer. Dans cette expression, on comprend pourquoi le prieur gaussien peut être interprété comme un terme de régularisation L2. $\beta$ $\beta$

De même, la relation entre la norme L1 et le précédent de Laplace peut être comprise de la même manière. Prenez au lieu d'un prieur Gaussien, un prieur Laplace associez-le à votre probabilité et prenez le logarithme.

Une bonne référence (peut-être un peu avancée) détaillant les deux questions est le document "Économies adaptatives pour un apprentissage supervisé", qui ne semble pas facile à trouver en ligne. Vous pouvez également consulter la section "Économies adaptatives avec Jeffreys Prior" . Une autre bonne référence est "Sur le classement bayésien avec les a priori de Laplace" .

— Ngiann
source

1

Dans un D dimensioncas de régression linéaire, peut betaet sigmaavoir des solutions explicites? Je lis PRML et trouve l'équation (1.67) à la page 30 et je ne sais pas comment le résoudre. Dans le maximum de vraisemblance, nous résolvons betapuis sigmaen réglant le gradient à zéro. En moindres carrés régularisés, puisque le paramètre de reqularisation lambdaest connu, nous le résolvons betadirectement. Mais si nous résolvons directement le MAP, ce qui est de l'ordre de résoudre beta, sigma? Peuvent-ils avoir une solution explicite ou devons-nous utiliser un processus itératif?

— stackunderflow

Il vous manque un "carré" sur le dans la dernière équation, c’est-à-dire ?

λ β

$\lambda \beta$

λ β^{2}

$\lambda \beta^2$

— brian.keng

@AdamO Limite le nombre de valeurs que les coefficients peuvent prendre. Si le prior est compris entre 1-10 par exemple, il y a 0 probabilité pour que le coefficient prenne toute autre valeur, c'est-à-dire [-inf à 1] et [10, + inf].

— imsrgadich

1

Dans ce cas, est connu. Est-ce que ça marche quand est inconnu? Pour la régression linéaire bayésienne, un a priori gamma inverse pourrait être utilisé pour former un conjugué avant la variance. Mais je ne suis pas sûr que l'algèbre équivaudrait à la même expression.

σ^{2}

$\sigma^2$

σ^{2}

$\sigma^2$

— AdamO

11

Pour un modèle linéaire avec une probabilité normale normale à plusieurs variables et à plusieurs variables, vous vous retrouvez avec une distribution postérieure normale à plusieurs variables dans laquelle la moyenne du modèle postérieur (et du modèle a posteriori maximum) correspond exactement à ce que vous obtiendriez avec une régularisation de Tikhonov ( moindres carrés avec un paramètre de régularisation approprié. $L_{2}$

Il convient de noter qu’il existe une différence plus fondamentale en ce que le postérieur bayésien est une distribution de probabilité, tandis que la solution des moindres carrés régularisée de Tikhonov est une estimation ponctuelle spécifique.

Ceci est discuté dans de nombreux manuels sur les méthodes bayésiennes pour les problèmes inverses, voir par exemple:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

De même, si vous avez une probabilité antérieure laplacienne et une probabilité normale multivariée, le maximum de la distribution postérieure se produit à un point que vous pourriez obtenir en résolvant un problème des moindres carrés régularisé par . $L_{1}$

— Brian Borchers
source

9

Tout d'abord, notez que la médiane minimise la norme L1 (voir ici ou ici pour en savoir plus sur la L1 et la L2)

median (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{1}

$\DeclareMathOperator*{\argmin}{arg\,min} \text{median}(x) = \argmin_s \sum_i |x_i - s|^1$

tandis que la moyenne minimise la L2

mean (x) = \underset{s}{a r g m i n} \sum_{i} | x_{i} - s |^{2}

$\text{mean}(x) = \argmin_s \sum_i |x_i - s|^2$

Maintenant, rappelons que le paramètre distributions normales peut être estimé à l'aide de la moyenne de l'échantillon , tandis que l' estimateur MLE pour le paramètre distribution Laplace est la médiane. Donc, utiliser la distribution normale équivaut à l'optimisation de la norme L2 et utiliser la distribution de Laplace, utiliser l'optimisation de la L1. En pratique, vous pouvez penser que la médiane est moins sensible aux valeurs aberrantes que les valeurs moyennes, et qu'il en est de même en utilisant une distribution de Laplace à queue plus épaisse, votre modèle est moins exposé aux valeurs aberrantes que la distribution en mode Normal. $\mu$ $\mu$

Hurley, WJ (2009) Une approche inductive pour calculer le MLE pour la distribution double exponentielle . Journal des méthodes statistiques appliquées modernes: 8 (2), article 25.

— Tim
source

Ce n’est peut-être pas la réponse la plus rigoureuse mathématiquement donnée ici, mais c’est certainement la solution la plus simple et la plus intuitive à comprendre pour un débutant en régularisation de L1 / L2.

— SQLServerSteve

8

Pour un problème de régression avec variables (sans interception), vous utilisez MLS comme $k$

min_{β} (y - X β)^{'} (y - X β)

$\min_{\beta} (y - X \beta)' (y - X \beta)$

En régression régularisée avec pénalité que vous faites $L^p$

min_{β} (y - X β)^{'} (y - X β) + λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\min_{\beta} (y - X \beta)' (y - X \beta) + \lambda \sum_{i=1}^k |\beta_i|^p$

Nous pouvons faire de manière équivalente (notez les changements de signe)

max_{β} - (y - X β)^{'} (y - X β) - λ \sum_{i = 1}^{k} | β_{i} |^{p}

$\max_{\beta} -(y - X \beta)' (y - X \beta) - \lambda \sum_{i=1}^k |\beta_i|^p$

Ceci est directement lié au principe bayésien de

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

$posterior \propto likelihood \times prior$

ou équivalent (dans des conditions de régularité)

l o g (p o s t e r i o r) \sim l o g (l i k e l i h o o d) + l o g (p e n a l t y)

$log(posterior) \sim log(likelihood) + log(penalty)$

Désormais, il n’est pas difficile de voir quelle répartition familiale exponentielle correspond à quel type de pénalité.

— Georg M. Goerg
source

3

Pour mettre l'équivalence plus précisément:

Optimiser les poids du modèle pour minimiser une fonction de perte d'erreur au carré avec la régularisation de L2 équivaut à rechercher les poids les plus probables avec une distribution a posteriori évaluée à l'aide de la règle de Bayes, avec un poids gaussien indépendant de moyenne nulle auparavant.

Preuve:

La fonction de perte décrite ci-dessus serait donnée par

L = \underset{O r i g i n a l l o s s f u n c t i o n}{\underset{⏟}{[\sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2}]}} + \underset{L_{2} l o s s}{\underset{⏟}{λ \sum_{i = 1}^{K} w_{i}^{2}}}

$L = \underbrace{\Big[ \sum_{n=1}^{N} (y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)}))^{2} \Big] }_{Original \; loss \; function} + \underbrace{\lambda \sum_{i=1}^{K} w_{i}^{2}}_{L_{2} \; loss}$

Notez que la distribution pour un gaussien multivarié est

N (x; μ, Σ) = \frac{1}{(2 π)^{D / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ)^{⊤} Σ^{- 1} (x - μ))

$\mathcal{N}(\mathbf{x}; \mathbf{\mu}, \Sigma) = \frac{1}{(2 \pi)^{D/2}|\Sigma|^{1/2}} \exp\Big(-\frac{1}{2} (\mathbf{x} -\mathbf{\mu})^{\top} \Sigma^{-1} (\mathbf{x} -\mathbf{\mu})\Big)$

En utilisant la règle de Bayes, nous avons cela

\begin{aligned} p (w | D) & = \frac{p (D | w) p (w)}{p (D)} \\ \propto p (D | w) p (w) \\ \propto [\prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] N (w; 0, σ_{w}^{2} I) \\ \propto \prod_{n}^{N} N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2}) \prod_{i = 1}^{K} N (w_{i}; 0, σ_{w}^{2}) \end{aligned}

$\begin{split} p(\mathbf{w}|\mathcal{D}) &= \frac{p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})}{p(\mathcal{D})}\newline &\propto p(\mathcal{D}|\mathbf{w}) \; p(\mathbf{w})\newline &\propto \Big[ \prod_{n}^{N} \mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2})\Big] \; \mathcal{N}(\mathbf{w}; \mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbb{I})\newline &\propto \prod_{n}^{N} \mathcal{N}(y^{(n)};f_{\mathbf{w}}(\mathbf{x}^{(n)}) , \sigma_{y}^{2}) \prod_{i=1}^{K} \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \newline \end{split}$

Où nous sommes en mesure de scinder le Guassian multidimensionnel en un produit, car la covariance est un multiple de la matrice identité.

Prendre la probabilité de journal négative

\begin{aligned} - \log [p (w | D)] & = - \sum_{n = 1}^{N} \log [N (y^{(n)}; f_{w} (x^{(n)}), σ_{y}^{2})] - \sum_{i = 1}^{K} \log [N (w_{i}; 0, σ_{w}^{2})] + c o n s t . \\ = \frac{1}{2 σ_{y}^{2}} \sum_{n = 1}^{N} (y^{(n)} - f_{w} (x^{(n)}))^{2} + \frac{1}{2 σ_{w}^{2}} \sum_{i = 1}^{K} w_{i}^{2} + c o n s t . \end{aligned}

$\begin{split} -\log \big[p(\mathbf{w}|\mathcal{D}) \big] &= -\sum_{n=1}^{N} \log \big[\mathcal{N}(y^{(n)}; f_{\mathbf{w}}(\mathbf{x}^{(n)}), \sigma_{y}^{2}) \big] - \sum_{i=1}^{K} \log \big[ \mathcal{N}(w_{i}; \, 0, \, \sigma_{\mathbf{w}}^{2}) \big] + const. \newline &= \frac{1}{2\sigma_{y}^{2}} \sum_{n=1}^{N} \big(y^{(n)} - f_{\mathbf{w}}(\mathbf{x}^{(n)})\big)^{2} + \frac{1}{2\sigma_{\mathbf{w}}^{2}} \sum_{i=1}^{K} w_{i}^{2} + const. \newline \end{split}$

Nous pouvons bien sûr abandonner la constante et la multiplier par n’importe quel montant sans affecter fondamentalement la fonction de perte. (constante ne fait rien, la multiplication adapte efficacement le taux d'apprentissage. N'affectera pas l'emplacement des minima) Ainsi, nous pouvons voir que la probabilité logarithmique négative de la distribution postérieure est une fonction de perte équivalente à la fonction de perte d'erreur quadratique régularisée L2.

Cette équivelance est générale et vaut pour toute fonction paramétrée de pondération - pas seulement la régression linéaire comme cela semble être impliqué ci-dessus.

— nickelnine37
source

1

Il convient de souligner deux caractéristiques de la modélisation bayésienne lorsqu’on discute de l’équivalence de certaines estimations du maximum de vraisemblance pénalisées et de procédures bayésiennes.

Dans le cadre bayésien, le prior est sélectionné en fonction des spécificités du problème et n'est pas motivé par la rapidité de calcul. Par conséquent, les Bayésiens utilisent une variété de priors, y compris le désormais célèbre fer à cheval, pour les problèmes de prédicteurs épars, et n'ont pas besoin de s'appuyer autant sur des priors équivalents aux pénalités de L1 ou de L2.
Avec une approche bayésienne complète, vous avez accès à toutes les procédures inférentielles lorsque vous avez terminé. Par exemple, vous pouvez quantifier les preuves de coefficients de régression élevés et obtenir des intervalles crédibles pour les coefficients de régression et les valeurs prédites globales. Dans le cadre fréquentiste, une fois que vous avez choisi la pénalisation, vous perdez toute la machine inférentielle.

— Frank Harrell
source