Modifications: j'ai ajouté un exemple simple: l'inférence de la moyenne du . J'ai également légèrement expliqué pourquoi les intervalles crédibles ne correspondant pas aux intervalles de confiance sont mauvais.
Je suis un Bayésien passionné, je suis en pleine crise de foi.
Mon problème est le suivant. Supposons que je veuille analyser certaines données IID . Ce que je ferais c'est:
tout d'abord, proposons un modèle conditionnel:
Ensuite, choisissez un prior sur : p ( θ )
Enfin, appliquez la règle de Bayes, calculez la valeur postérieure: (ou une approximation si elle doit être non calculable) et répondez à toutes les questions que j'ai à propos deθ
C'est une approche judicieuse: si le vrai modèle des données est bien "à l'intérieur" de mon conditionnel (il correspond à une valeur ), je peux faire appel à la théorie de la décision statistique pour dire que ma méthode est admissible (voir Robert's "Le choix bayésien" pour plus de détails; "Toutes les statistiques" donne également un compte rendu clair dans le chapitre correspondant).θ 0
Cependant, comme chacun le sait, supposer que mon modèle est correct est assez arrogant: pourquoi la nature devrait-elle entrer parfaitement dans la boîte des modèles que j'ai examinés? Il est beaucoup plus réaliste de supposer que le modèle réel des données diffère de pour toutes les valeurs de . Ceci est généralement appelé un modèle "mal spécifié".p ( X | θ ) θ
Mon problème est que, dans ce cas plus réaliste et mal spécifié, je n’ai aucun argument valable pour être bayésien (c’est-à-dire: calculer la distribution postérieure) par rapport au calcul de l’estimateur de vraisemblance maximale (MLE):
En effet, selon Kleijn, vd Vaart (2012) , dans le cas mal spécifié, la distribution a posteriori:
converge comme vers une distribution dirac centrée sur un
n'a pas la bonne variance (à moins que deux valeurs soient identiques) afin de garantir que les intervalles crédibles des intervalles de confiance de correspondance postérieure pour . (Notez que, bien que les bayésiens ne se soucient pas trop des intervalles de confiance, cela signifie qualitativement que la distribution postérieure est intrinsèquement fausse, car elle implique que ses intervalles crédibles ne sont pas correctement couverts.)
Ainsi, nous payons une prime de calcul (l'inférence bayésienne, en général, est plus chère que MLE) pour aucune propriété supplémentaire
Donc, enfin, ma question: existe-t-il des arguments, qu’ils soient théoriques ou empiriques, en faveur de l’inférence bayésienne sur la variante plus simple de l’EML lorsque le modèle est mal spécifié?
(Puisque je sais que mes questions sont souvent peu claires, faites-le moi savoir si vous ne comprenez pas quelque chose: je vais essayer de le reformuler)
Edit: considérons un exemple simple: déduire la moyenne du sous un modèle gaussien (avec une variance connue pour simplifier encore plus). Nous considérons un préalable gaussien: nous notons la moyenne antérieure, la variance inverse du prior. Soit la moyenne empirique du . Enfin, notez: .
La distribution postérieure est:
Dans le cas correctement spécifié (lorsque les ont vraiment une distribution gaussienne), cette propriété postérieure a les propriétés intéressantes suivantes
Si les sont générés à partir d'un modèle hiérarchique dans lequel leur moyenne partagée est choisie dans la distribution précédente, les intervalles crédibles postérieurs ont une couverture exacte. Sous réserve des données, la probabilité que se trouve dans un intervalle est égale à la probabilité que le postérieur attribue cet intervalle
Même si le préalable n'est pas correct, les intervalles crédibles ont une couverture correcte dans la limite dans laquelle l'influence antérieure sur le postérieur disparaît
le postérieur a en outre de bonnes propriétés fréquentistes: tout estimateur bayésien construit à partir du postérieur est garanti, la moyenne postérieure est un estimateur efficace (au sens de Cramer-Rao) de la moyenne, les intervalles crédibles sont, asymptotiquement, des intervalles de confiance.
Dans le cas mal spécifié, la plupart de ces propriétés ne sont pas garanties par la théorie. Afin de corriger les idées, supposons que le modèle réel pour les est qu’ils sont plutôt des distributions d’étudiants. La seule propriété que nous puissions garantir (Kleijn et al) est que la distribution a posteriori se concentre sur la moyenne réelle du dans la limite . En général, toutes les propriétés de couverture disparaîtraient. Pire, en général, nous pouvons garantir que, dans cette limite, les propriétés de couverture sont fondamentalement fausses: la distribution postérieure attribue la probabilité fausse à diverses régions de l’espace.