Existe-t-il une interprétation bayésienne de la régression linéaire avec régularisation simultanée L1 et L2 (aka filet élastique)?

Il est bien connu que la régression linéaire avec une pénalité de équivaut à trouver l'estimation MAP donnée un a priori gaussien sur les coefficients. De même, l'utilisation d'une pénalité équivaut à l'utilisation d'une distribution de Laplace comme a priori. $l^2$ $l^1$

Il n'est pas rare d'utiliser une combinaison pondérée de régularisation et . Peut-on dire que cela équivaut à une certaine distribution antérieure sur les coefficients (intuitivement, il semble que ce doit être le cas)? Pouvons-nous donner à cette distribution une belle forme analytique (peut-être un mélange de gaussien et de laplacien)? Sinon, pourquoi pas? $l^1$ $l^2$

— Michael Curry
source

voir cet article: tandfonline.com/doi/abs/10.1198/jasa.2011.tm09241 (Si ce n'est pas répondu correctement dans une semaine ou deux, je

— posterai

Je dois ajouter que chaque fois que les fréquentistes ont un pénalité , un bayésien peut l'interpréter comme un antérieur (peut-être incorrect) sous un modèle gaussien standard.

p e n

$pen$

e^{- p e n}

$e^{-pen}$

— user795305

merci, cet article et ses citations répondent parfaitement à ma question!

— Michael Curry

Génial! Cela vous dérange-t-il de préciser de quelles citations vous parlez? (Je

— prévois de

D'accord, cool! Je pense que leur interprétation bayésienne est

— liée

Le commentaire de Ben est probablement suffisant, mais je fournis quelques références supplémentaires dont l'une est antérieure à l'article référencé par Ben.

Une représentation nette élastique bayésienne a été proposée par Kyung et. Al. dans leur section 3.1. Bien que l'a priori du coefficient de régression soit correct, les auteurs ont incorrectement noté la représentation du mélange. $\beta$

Un modèle bayésien corrigé pour le filet élastique a été récemment proposé par Roy et Chakraborty (leur équation 6). Les auteurs présentent également un échantillonneur de Gibbs approprié à échantillonner à partir de la distribution postérieure, et montrent que l'échantillonneur de Gibbs converge vers la distribution stationnaire à une vitesse géométrique. Pour cette raison, ces références pourraient s'avérer utiles, en plus du document Hans .

— Greenparker
source

(+1) Excellente réponse!

— user795305

pour tout le monde à l'avenir - les articles méritent tous d'être examinés, mais l'article de Hans vous donne quelques échantillonneurs Gibbs pour diverses distributions ainsi qu'une représentation hiérarchique de l'a priori qui peut être facilement traduite pour Stan.

— Michael Curry