Keith Winstein,
EDIT: Juste pour clarifier, cette réponse décrit l'exemple donné dans Keith Winstein Answer sur King avec le jeu statistique cruel. Les réponses bayésienne et Frequentist utilisent toutes deux la même information, à savoir ignorer les informations sur le nombre de pièces justes et injustes lors de la construction des intervalles. Si cette information n'est pas ignorée, le fréquentiste devrait utiliser la vraisemblance bêta-binomiale intégrée comme distribution d'échantillonnage dans la construction de l'intervalle de confiance, auquel cas l'intervalle de confiance de Clopper-Pearson n'est pas approprié et doit être modifié. Un ajustement similaire devrait avoir lieu dans la solution bayésienne.
EDIT: J'ai également clarifié l'utilisation initiale du clopper Pearson Interval.
EDIT: hélas, mon alpha est dans le mauvais sens, et mon intervalle de clopper pearson est incorrect. Mes plus humbles excuses à @whuber, qui l’a correctement souligné, mais avec qui j’ai initialement été en désaccord et ignoré.
Le CI utilisant la méthode Clopper Pearson est très bon
Si vous n'obtenez qu'une observation, alors l'intervalle de Clopper Pearson peut être évalué de manière analytique. Supposons que la pièce apparaisse comme un "succès" (têtes), vous devez choisir tel queθ
[Pr(Bi(1,θ)≥X)≥α2]∩[Pr(Bi(1,θ)≤X)≥α2]
Lorsque ces probabilités sont et , de sorte que le CI Clopper Pearson implique que (et trivialement toujours vrai ) lorsque . Lorsque ces probabilités sont et ; le CI Clopper Pearson implique donc que ou lorsque . Donc, pour un IC à 95%, on obtient quand , etX=1Pr(Bi(1,θ)≥1)=θPr(Bi(1,θ)≤1)=1θ≥α21≥α2X=1X=0Pr(Bi(1,θ)≥0)=1Pr(Bi(1,θ)≤0)=1−θ1−θ≥α2θ≤1−α2X=0[0.025,1]X=1[0,0.975] lorsque .X=0
Ainsi, celui qui utilise l'intervalle de confiance Clopper Pearson ne sera jamais décapité. Lors de l'observation de l'intervalle, il s'agit essentiellement de tout l'espace des paramètres. Mais l’intervalle CP fait cela en donnant une couverture de 100% à un intervalle supposé de 95%! En gros, les Frequentists "trichent" en donnant un intervalle de confiance de 95% supérieur à la couverture demandée (même si qui ne tricherait pas dans une telle situation? Si c'était moi, je donnerais à l'ensemble [0, 1] intervalle). Si le roi demandait un IC exact à 95%, cette méthode fréquentiste échouerait indépendamment de ce qui s'est réellement passé (peut-être une meilleure existe-t-elle?).
Qu'en est-il de l'intervalle bayésien? (en particulier l'intervalle bayésien des plus hautes postérités postérieures (HPD))
Parce que nous savons a priori que les têtes et les queues peuvent se relever, l’uniforme précédent est un choix raisonnable. Ceci donne une distribution postérieure de . Il ne nous reste plus qu'à créer un intervalle avec une probabilité postérieure de 95%. Semblable au clopper pearson CI, la distribution cumulative bêta est analytique ici aussi, de sorte que et réglant sur 0,95 donne lorsque et lorsque . Donc, les deux intervalles crédibles sont(θ|X)∼Beta(1+X,2−X)Pr(θ≥θe|x=1)=1−(θe)2Pr(θ≤θe|x=0)=1−(1−θe)2θe=0.05−−−−√≈0.224X=1θe=1−0.05−−−−√≈0.776X=0(0,0.776) lorsque et lorsqueX=0(0.224,1)X=1
Ainsi, le Bayésien sera décapité pour son intervalle HPD Credible dans le cas où il obtiendrait la mauvaise pièce et que la pièce Bad se dresserait avec un risque de .11012+1×110≈0
Première observation, l'intervalle bayésien est inférieur à l'intervalle de confiance. Une autre chose est que le Bayésien serait plus proche de la couverture réelle indiquée, 95%, que le fréquentiste. En fait, le Bayésien est à peu près aussi proche de la couverture de 95% que l'on peut obtenir dans ce problème. Et contrairement à l'affirmation de Keith, si la mauvaise pièce est choisie, 10 Bayésiens sur 100 perdront en moyenne leur tête (pas tous, car la mauvaise pièce doit venir en tête pour que l'intervalle ne contienne pas ). 0.1
Il est intéressant de noter que si l’intervalle CP pour une observation a été utilisé à plusieurs reprises (nous avons donc N intervalles de ce type, basés chacun sur une observation) et que la proportion réelle se situait entre et , la couverture de l’IC à 95% sera toujours de 100. % et pas 95%! Cela dépend clairement de la valeur réelle du paramètre! Il s'agit donc au moins d'un cas où l'utilisation répétée d'un intervalle de confiance ne conduit pas au niveau de confiance souhaité.0.0250.975
Pour citer un véritable intervalle de confiance de 95%, il devrait y avoir par définition des cas (c'est-à-dire au moins un) de l'intervalle observé qui ne contiennent pas la valeur vraie du paramètre . Sinon, comment justifier la balise à 95%? Ne serait-il pas juste valide ou invalide d'appeler cela un intervalle de 90%, 50%, 20% ou même 0%?
Je ne vois pas comment il serait satisfaisant de dire «cela signifie en réalité 95% ou plus» sans restriction complémentaire. En effet, la solution mathématique évidente est l’ensemble de l’espace des paramètres et le problème est trivial. supposons que je veuille un IC à 50%? si elle ne limite que les faux négatifs, alors tout l'espace de paramètre est un CI valide utilisant uniquement ce critère.
Peut-être un meilleur critère est-il (et c'est ce que je crois implicite dans la définition de Kieth) "aussi proche que possible de 95%, sans aller au-dessous de 95%". L'intervalle bayésien aurait une couverture plus proche de 95% que celle du fréquentiste (mais pas beaucoup) et ne passerait pas sous la couverture à 95% (couverture lorsque et couverture lorsque ).100%X=0100×1012+9101012+1%>95%X=1
En conclusion, il semble un peu étrange de demander un intervalle d'incertitude, puis d'évaluer cet intervalle en utilisant la valeur vraie dont nous doutions. Une comparaison "plus juste", tant pour la confiance que pour les intervalles crédibles, me semble être la vérité de la déclaration d'incertitude donnée avec l'intervalle .