Quand la distribution d'échantillonnage fréquentiste ne peut-elle pas être interprétée comme postérieure bayésienne dans les paramètres de régression?

Mes vraies questions se trouvent dans les deux derniers paragraphes, mais pour les motiver:

Si j'essaie d'estimer la moyenne d'une variable aléatoire qui suit une distribution normale avec une variance connue, j'ai lu que le fait de mettre un uniforme avant sur la moyenne donne une distribution postérieure proportionnelle à la fonction de vraisemblance. Dans ces situations, l'intervalle crédible bayésien chevauche parfaitement l'intervalle de confiance fréquentiste, et l'estimation maximale bayésienne a posteriori est égale à l'estimation du maximum de vraisemblance fréquentiste.

Dans un simple paramètre de régression linéaire,

$Y = \textbf{X}\beta+\epsilon, \hspace{1cm} \epsilon\sim N(0,\sigma^2)$

mettre un a priori uniforme sur et un a priori gamma inverse sur avec de petites valeurs de paramètres donne un postérieur qui sera très similaire au fréquentiste , et un intervalle crédible pour la distribution postérieure de qui sera très similaire à l'intervalle de confiance autour de l'estimation du maximum de vraisemblance. Ils ne seront pas exactement les mêmes car le précédent sur exerce une petite quantité d'influence, et si l'estimation postérieure est effectuée via une simulation MCMC qui introduira une autre source de divergence, mais l'intervalle crédible bayésien autour du $\beta$ $\sigma^2$ $\hat\beta^{MAP}$ $\hat\beta^{MLE}$ $\beta|X$ $\sigma^2$ $\hat\beta^{MAP}$ et l'intervalle de confiance fréquentiste autour de sera assez proche les uns des autres, et bien sûr, à mesure que la taille de l'échantillon augmente, ils devraient converger à mesure que l'influence de la probabilité augmente pour dominer celle de l'a priori. $\hat\beta^{MLE}$

Mais j'ai lu qu'il y a aussi des situations de régression où ces quasi-équivalences ne tiennent pas. Par exemple, les régressions hiérarchiques avec des effets aléatoires, ou la régression logistique - ce sont des situations où, si je comprends bien, il n'y a pas de «bons» objectifs ou références a priori.

Donc ma question générale est la suivante - en supposant que je veux faire une inférence sur $P(\beta|X)$ et que je n'ai pas d'informations préalables que je souhaite intégrer, pourquoi ne puis-je pas procéder à une estimation fréquentielle du maximum de vraisemblance dans ces situations et interpréter les estimations de coefficient et les erreurs-types résultantes comme des estimations et des écarts-types du MAP bayésien et les traiter implicitement des estimations "postérieures" résultant d'un a priori qui devait être "non informatif" sans chercher à trouver la formulation explicite du prieur qui conduirait à un tel postérieur? En général, dans le domaine de l'analyse de régression, quand est-il acceptable de procéder dans ce sens (de traiter la probabilité comme un postérieur) et quand n'est-il pas acceptable? Qu'en est-il des méthodes fréquentistes qui ne sont pas basées sur la vraisemblance, telles que les méthodes de quasi-vraisemblance,

Les réponses dépendent-elles si mon objectif d'inférence est une estimation ponctuelle des coefficients, ou la probabilité qu'un coefficient se situe dans une plage particulière, ou des quantités de la distribution prédictive?

— Yakkanomica
source

Il s'agit essentiellement d'une question sur les valeurs et la probabilité maximale. Permettez-moi de citer Cohen (1994) ici $p$

Ce que nous voulons savoir, c'est "Compte tenu de ces données, quelle est la probabilité que soit vrai?" Mais comme la plupart d'entre nous le savent, ce qu'il [valeur- ] nous dit est "Étant donné que est vrai, quelle est la probabilité de ces données (ou plus extrêmes)?" Ce ne sont pas les mêmes (...) $H_0$ $p$ $H_0$

La valeur nous indique donc quel est le , alors que nous nous intéressons à (voir aussi la discussion sur le cadre Fisherian vs Neyman-Pearson ). $p$ $P(D|H_0)$ $P(H_0|D)$

Oublions un instant les valeurs de . La probabilité d'observer nos données en fonction d'un paramètre est la fonction de vraisemblance $p$ $\theta$

L (θ | D) = P (D | θ)

$L(\theta | D) = P(D|\theta)$

c'est une façon de considérer l'inférence statistique. Une autre façon est l'approche bayésienne où nous voulons en apprendre directement (plutôt qu'indirectement) sur en utilisant le théorème de Bayes et en utilisant des a priori pour $P(\theta|D)$ $\theta$

\underset{posterior}{\underset{⏟}{P (θ | D)}} \propto \underset{likelihood}{\underset{⏟}{P (D | θ)}} \times \underset{prior}{\underset{⏟}{P (θ)}}

$\underbrace{P(\theta|D)}_\text{posterior} \propto \underbrace{P(D|\theta)}_\text{likelihood} \times \underbrace{P(\theta)}_\text{prior}$

Maintenant, si vous regardez l'image globale, vous verrez que les valeurs de et la probabilité répondent à des questions différentes de l'estimation bayésienne. $p$

Ainsi, alors que les estimations du maximum de vraisemblance devraient être les mêmes que les estimations bayésiennes de MAP sous des a priori uniformes, vous devez vous rappeler qu'elles répondent à une question différente.

Cohen, J. (1994). La terre est ronde (p <0,05). Psychologue américain, 49, 997-1003.

— Tim
source

Merci pour votre réponse @Tim. J'aurais dû être plus clair - je comprends que P (D | H) et P (H | D) ne sont généralement pas les mêmes, et que les fréquentistes et les bayésiens diffèrent d'opinion sur l'opportunité d'attribuer des distributions de probabilité aux paramètres ( ou hypothèses plus généralement). Ce que je demande, c'est des situations dans lesquelles la distribution d'échantillonnage (fréquentiste) d'un estimateur sera numériquement équivalente à la distribution postérieure (bayésienne) de la valeur réelle du paramètre.

— Yakkanomica

Suite de mon commentaire précédent: Vous avez écrit: "Alors, alors que les estimations du maximum de vraisemblance devraient être les mêmes que les estimations bayésiennes de MAP sous des a priori uniformes," - je demande s'il y a des situations dans lesquelles cette relation se rompt - à la fois en termes des estimations ponctuelles et des distributions qui les entourent.

— Yakkanomica

Un dernier addendum - Certains diront que la principale vertu de l'approche bayésienne est sa capacité à intégrer de manière flexible les connaissances antérieures. Pour moi, l'attrait de l'approche bayésienne réside dans l'interprétation - la capacité d'attribuer une distribution de probabilité à un paramètre. La nécessité de spécifier les antérieurs est une nuisance. Je veux savoir dans quelles situations je peux utiliser des méthodes fréquentistes mais attribuer une interprétation bayésienne aux résultats en faisant valoir que les résultats fréquentistes et bayésiens coïncident numériquement sous des prieurs plausiblement non informatifs.

— Yakkanomica

@Yakkanomica Je comprends, c'est une question intéressante, mais la réponse simple (comme indiqué ci-dessus) est que vous ne devriez pas faire de telles interprétations parce que les méthodes les plus fréquentes répondent à la question différente de bayésienne. Les estimations ponctuelles ML et MAP doivent être conformes, mais les intervalles de confiance et l'IDH peuvent différer et ne doivent pas être interprétés comme l'interchangeabilité.

— Tim

Mais @Tim, il existe des situations dans lesquelles les intervalles de confiance et l'IDH se chevauchent. Par exemple, comparez les estimations ML à la p.1906 avec les estimations bayésiennes postérieures (basées sur des a priori uniformes sur les coefficients et IG avant sur l'échelle) à la p.1908: exemple PROC GENMOD . L'estimation du point ML et les limites de confiance à 95% sont très similaires à l'estimation moyenne postérieure bayésienne et à l'intervalle HPD à 95%.

— Yakkanomica