Les estimateurs de régression pénalisés tels que LASSO et ridge correspondraient aux estimateurs bayésiens avec certains a priori.
Oui c'est correct. Chaque fois que nous avons un problème d'optimisation impliquant la maximisation de la fonction log-vraisemblance plus une fonction de pénalité sur les paramètres, cela est mathématiquement équivalent à la maximisation postérieure où la fonction de pénalité est considérée comme le logarithme d'un noyau antérieur. † Pour le voir, supposons que nous ayons une fonction de pénalité w utilisant un paramètre de réglage λ . La fonction objective dans ces cas peut s'écrire:†wλ
Hx(θ|λ)=ℓx(θ)−w(θ|λ)=ln(Lx(θ)⋅exp(−w(θ|λ)))=ln(Lx(θ)π(θ|λ)∫Lx(θ)π(θ|λ)dθ)+const=lnπ(θ|x,λ)+const,
où nous utilisons le précédent π(θ|λ)∝exp(−w(θ|λ)) . Observez ici que le paramètre de réglage dans l'optimisation est traité comme un hyperparamètre fixe dans la distribution précédente. Si vous effectuez une optimisation classique avec un paramètre de réglage fixe, cela équivaut à entreprendre une optimisation bayésienne avec un hyper-paramètre fixe. Pour la régression LASSO et Ridge, les fonctions de pénalité et les équivalents antérieurs correspondants sont:
LASSO RegressionRidge Regressionπ(θ|λ)π(θ|λ)=∏k=1mLaplace(0,1λ)=∏k=1mλ2⋅exp(−λ|θk|),=∏k=1mNormal(0,12λ)=∏k=1mλ/π−−−√⋅exp(−λθ2k).
La première méthode pénalise les coefficients de régression en fonction de leur amplitude absolue, ce qui équivaut à imposer un a priori de Laplace situé à zéro. Cette dernière méthode pénalise les coefficients de régression en fonction de leur ampleur au carré, ce qui équivaut à imposer un a priori normal situé à zéro.
Maintenant, un fréquentiste optimiserait le paramètre de réglage par validation croisée. Y a-t-il un équivalent bayésien de le faire et est-il utilisé du tout?
Tant que la méthode fréquentiste peut être posée comme un problème d'optimisation (plutôt que de dire, y compris un test d'hypothèse, ou quelque chose comme ça), il y aura une analogie bayésienne utilisant un précédent équivalent. Tout comme les fréquentistes peuvent traiter le paramètre de réglage λ comme inconnu et l'estimer à partir des données, le bayésien peut également traiter l'hyperparamètre λ comme inconnu. Dans une analyse bayésienne complète, cela impliquerait de donner à l'hyperparamètre son propre a priori et de trouver le maximum postérieur sous cet a priori, ce qui serait analogue à maximiser la fonction objective suivante:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−h(λ)=ln(Lx(θ)⋅exp(−w(θ|λ))⋅exp(−h(λ)))=ln(Lx(θ)π(θ|λ)π(λ)∫Lx(θ)π(θ|λ)π(λ)dθ)+const=lnπ(θ,λ|x)+const.
Cette méthode est en effet utilisée en analyse bayésienne dans les cas où l'analyste n'est pas à l'aise de choisir un hyperparamètre spécifique pour son a priori, et cherche à rendre le a priori plus diffus en le traitant comme inconnu et en lui donnant une distribution. (Notez que ce n'est qu'un moyen implicite de donner un plus diffus avant le paramètre d'intérêt θ .)
(Commentaire de statslearner2 ci-dessous) Je recherche des estimations MAP numériques équivalentes. Par exemple, pour une crête à pénalité fixe, il y a un a priori gaussien qui me donnera l'estimation MAP exactement égale à l'estimation de la crête. Maintenant, pour l'arête CV k-fold, quel est l'hyper-prior qui me donnerait l'estimation MAP qui est similaire à l'estimation de l'arête CV?
Avant de passer à la validation croisée du facteur K , il convient tout d'abord de noter que, mathématiquement, la méthode du maximum a posteriori (MAP) est simplement une optimisation d'une fonction du paramètre θ et des données x . Si vous êtes prêt à autoriser des antécédents incorrects, la portée englobe tout problème d'optimisation impliquant une fonction de ces variables. Ainsi, toute méthode fréquentiste qui peut être définie comme un seul problème d'optimisation de ce type a une analogie MAP, et toute méthode fréquentiste qui ne peut pas être définie comme une seule optimisation de ce type n'a pas d'analogie MAP.
Dans la forme de modèle ci-dessus, impliquant une fonction de pénalité avec un paramètre de réglage, la validation croisée de facteur K est couramment utilisée pour estimer le paramètre de réglage λ . Pour cette méthode , vous partitionner le vecteur de données x en K sous-vecteurs x1,...,xK . Pour chacun des sous-vecteur k=1,...,K vous ajustez le modèle avec les données "d'apprentissage" x−k , puis vous mesurez l'ajustement du modèle avec les données "d'essai" xk. Dans chaque ajustement, vous obtenez un estimateur pour les paramètres du modèle, qui vous donne ensuite des prédictions des données de test, qui peuvent ensuite être comparées aux données de test réelles pour donner une mesure de la "perte":
EstimatorPredictionsTesting lossθ^(x−k,λ),x^k(x−k,λ),Lk(x^k,xk|x−k,λ).
Les mesures de perte pour chacun des K "replis" peuvent ensuite être agrégées pour obtenir une mesure de perte globale pour la validation croisée:
L(x,λ)=∑kLk(x^k,xk|x−k,λ)
On estime ensuite le paramètre de réglage en minimisant la mesure de perte globale:
λ^≡λ^(x)≡arg min λL(x,λ).
θλθ
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ),
where δ>0 is a weighting value on the tuning-loss. As δ→∞ the weight on optimisation of the tuning-loss becomes infinite and so the optimisation problem yields the estimated tuning parameter from K-fold cross-validation (in the limit). The remaining part of the objective function is the standard objective function conditional on this estimated value of the tuning parameter. Now, unfortunately, taking δ=∞ screws up the optimisation problem, but if we take δ to be a very large (but still finite) value, we can approximate the combination of the two optimisation problems up to arbitrary accuracy.
From the above analysis we can see that it is possible to form a MAP analogy to the model-fitting and K-fold cross-validation process. This is not an exact analogy, but it is a close analogy, up to arbitrarily accuracy. It is also important to note that the MAP analogy no longer shares the same likelihood function as the original problem, since the loss function depends on the data and is thus absorbed as part of the likelihood rather than the prior. In fact, the full analogy is as follows:
Hx(θ,λ)=ℓx(θ)−w(θ|λ)−δL(x,λ)=ln(L∗x(θ,λ)π(θ,λ)∫L∗x(θ,λ)π(θ,λ)dθ)+const,
where L∗x(θ,λ)∝exp(ℓx(θ)−δL(x,λ)) and π(θ,λ)∝exp(−w(θ|λ)), with a fixed (and very large) hyper-parameter δ.
† This gives an improper prior in cases where the penalty does not correspond to the logarithm of a sigma-finite density.