Réponses:
Imaginons que vous souhaitiez déduire un paramètre partir de certaines paires entrée-sortie observées . Supposons que les sorties sont linéairement liées aux entrées via et que les données sont corrompues par du bruit :
où est le bruit gaussien avec une moyenne de et une variance . Cela donne lieu à une probabilité gaussienne:
Régularisons le paramètre en imposant le précédent gaussien où est un scalaire strictement positif. Par conséquent, en combinant la vraisemblance et le préalable, nous avons simplement:
Prenons le logarithme de l'expression ci-dessus. En abandonnant certaines constantes, nous obtenons:
Si nous maximisons l'expression ci-dessus en ce qui concerne , nous obtenons la soi-disant estimation a posteriori maximale de , ou estimation MAP pour résumer. Dans cette expression, on comprend pourquoi le prieur gaussien peut être interprété comme un terme de régularisation L2.β
De même, la relation entre la norme L1 et le précédent de Laplace peut être comprise de la même manière. Prenez au lieu d'un prieur Gaussien, un prieur Laplace associez-le à votre probabilité et prenez le logarithme.
Une bonne référence (peut-être un peu avancée) détaillant les deux questions est le document "Économies adaptatives pour un apprentissage supervisé", qui ne semble pas facile à trouver en ligne. Vous pouvez également consulter la section "Économies adaptatives avec Jeffreys Prior" . Une autre bonne référence est "Sur le classement bayésien avec les a priori de Laplace" .
Pour un modèle linéaire avec une probabilité normale normale à plusieurs variables et à plusieurs variables, vous vous retrouvez avec une distribution postérieure normale à plusieurs variables dans laquelle la moyenne du modèle postérieur (et du modèle a posteriori maximum) correspond exactement à ce que vous obtiendriez avec une régularisation de Tikhonov ( moindres carrés avec un paramètre de régularisation approprié.
Il convient de noter qu’il existe une différence plus fondamentale en ce que le postérieur bayésien est une distribution de probabilité, tandis que la solution des moindres carrés régularisée de Tikhonov est une estimation ponctuelle spécifique.
Ceci est discuté dans de nombreux manuels sur les méthodes bayésiennes pour les problèmes inverses, voir par exemple:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
De même, si vous avez une probabilité antérieure laplacienne et une probabilité normale multivariée, le maximum de la distribution postérieure se produit à un point que vous pourriez obtenir en résolvant un problème des moindres carrés régularisé par .
Tout d'abord, notez que la médiane minimise la norme L1 (voir ici ou ici pour en savoir plus sur la L1 et la L2)
tandis que la moyenne minimise la L2
Maintenant, rappelons que le paramètre distributions normales peut être estimé à l'aide de la moyenne de l'échantillon , tandis que l' estimateur MLE pour le paramètre distribution Laplace est la médiane. Donc, utiliser la distribution normale équivaut à l'optimisation de la norme L2 et utiliser la distribution de Laplace, utiliser l'optimisation de la L1. En pratique, vous pouvez penser que la médiane est moins sensible aux valeurs aberrantes que les valeurs moyennes, et qu'il en est de même en utilisant une distribution de Laplace à queue plus épaisse, votre modèle est moins exposé aux valeurs aberrantes que la distribution en mode Normal.
Hurley, WJ (2009) Une approche inductive pour calculer le MLE pour la distribution double exponentielle . Journal des méthodes statistiques appliquées modernes: 8 (2), article 25.
Pour un problème de régression avec variables (sans interception), vous utilisez MLS comme
En régression régularisée avec pénalité que vous faites
Nous pouvons faire de manière équivalente (notez les changements de signe)
Ceci est directement lié au principe bayésien de
ou équivalent (dans des conditions de régularité)
Désormais, il n’est pas difficile de voir quelle répartition familiale exponentielle correspond à quel type de pénalité.
Pour mettre l'équivalence plus précisément:
Optimiser les poids du modèle pour minimiser une fonction de perte d'erreur au carré avec la régularisation de L2 équivaut à rechercher les poids les plus probables avec une distribution a posteriori évaluée à l'aide de la règle de Bayes, avec un poids gaussien indépendant de moyenne nulle auparavant.
Preuve:
La fonction de perte décrite ci-dessus serait donnée par
Notez que la distribution pour un gaussien multivarié est
En utilisant la règle de Bayes, nous avons cela
Où nous sommes en mesure de scinder le Guassian multidimensionnel en un produit, car la covariance est un multiple de la matrice identité.
Prendre la probabilité de journal négative
Nous pouvons bien sûr abandonner la constante et la multiplier par n’importe quel montant sans affecter fondamentalement la fonction de perte. (constante ne fait rien, la multiplication adapte efficacement le taux d'apprentissage. N'affectera pas l'emplacement des minima) Ainsi, nous pouvons voir que la probabilité logarithmique négative de la distribution postérieure est une fonction de perte équivalente à la fonction de perte d'erreur quadratique régularisée L2.
Cette équivelance est générale et vaut pour toute fonction paramétrée de pondération - pas seulement la régression linéaire comme cela semble être impliqué ci-dessus.
Il convient de souligner deux caractéristiques de la modélisation bayésienne lorsqu’on discute de l’équivalence de certaines estimations du maximum de vraisemblance pénalisées et de procédures bayésiennes.
D dimension
cas de régression linéaire, peutbeta
etsigma
avoir des solutions explicites? Je lis PRML et trouve l'équation (1.67) à la page 30 et je ne sais pas comment le résoudre. Dans le maximum de vraisemblance, nous résolvonsbeta
puissigma
en réglant le gradient à zéro. En moindres carrés régularisés, puisque le paramètre de reqularisationlambda
est connu, nous le résolvonsbeta
directement. Mais si nous résolvons directement le MAP, ce qui est de l'ordre de résoudrebeta
,sigma
? Peuvent-ils avoir une solution explicite ou devons-nous utiliser un processus itératif?