Raisonnement fréquentiste et conditionnement des observations (exemple de Wagenmakers et al.)

9

Je ne suis pas un expert en statistiques, mais je suppose qu'il y a un désaccord quant à savoir si une interprétation "fréquentiste" ou "bayésienne" de la probabilité est la "bonne". D'après Wagenmakers et. al p. 183:

Considérons une distribution uniforme de moyenne et de largeur . Tirez au hasard deux valeurs de cette distribution, étiquetez la plus petite et la plus grande et vérifiez si la moyenne se situe entre et . Si cette procédure est répétée très souvent, la moyenne se situera entre et dans la moitié des cas. Ainsi, donne un intervalle de confiance fréquentiste de 50% pour . Mais supposons que pour un tirage particulier, et $\mu$ $1$ $s$ $l$ $\mu$ $s$ $l$ $\mu$ $s$ $l$ $(s, l)$ $\mu$ $s = 9.8$ $l = 10.7$ . La différence entre ces valeurs est de , ce qui couvre 9 / 10e de la plage de distribution. Par conséquent, pour ces valeurs particulières de et nous pouvons être sûrs à 100% que , même si l'intervalle de confiance fréquentiste vous fait croire que vous ne devriez être confiant qu'à 50%. $0.9$ $s$ $l$ $s < \mu < l$

Y a-t-il vraiment des gens qui croient qu'il n'y a que 50% de confiance dans ce cas ou est-ce un homme de paille?

Je suppose que plus généralement, le livre semble dire que les fréquentistes ne peuvent pas exprimer une revendication conditionnelle comme "Étant donné et , avec probabilité 1". Est-il vrai que le conditionnement implique un raisonnement bayésien? $s = 9.8$ $l = 10.7$ $s<\mu<l$

— Xodarap
source

8

Les trois réponses actuelles sont très bonnes. J'ajouterais seulement que Wagenmakers fait un argument de paille en ce sens qu'aucun statisticien fréquentiste ne recommanderait jamais cet intervalle de confiance - il n'existe dans la littérature qu'à titre d'exemple d'intervalle de confiance pathologique. D'un point de vue fréquentiste, cela démontre que la couverture de confiance à elle seule n'est pas suffisante pour une bonne inférence. (Je suis bayésien.)

— Cyan

14

Il y a une tricherie complexe impliquée. L'intervalle de confiance n'utilise pas les informations selon lesquelles la plage de l'uniforme est 1, et n'est donc pas paramétrique, tandis que l'affirmation faite à propos de l'échantillon avec fait, et dépend fortement du modèle. Je suis presque sûr que l'on peut améliorer la couverture ou la longueur (attendue) de l'intervalle de confiance si ces informations sont prises en compte. D'une part, les points finaux de la distribution sont au plus loin de ou . Par conséquent, un intervalle de confiance de 100% pour est . $(s,l)$ $l-s=0.9$ $1-(l-s)$ $s$ $l$ $\mu$ $(l-1/2, s+1/2)$

Ce problème particulier tombe dans le domaine de l'inférence pour les distributions partiellement identifiées étudiées au cours des 10 à 15 dernières années en économétrie théorique. L'inférence de vraisemblance, et donc bayésienne, pour la distribution uniforme est moche, car elle constitue un problème non régulier (le support de la distribution dépend du paramètre inconnu).

— StasK
source

Je doute que vous puissiez réduire la longueur attendue en dessous de pour un intervalle de confiance de 50% sur un échantillon de 2 éléments.

\frac{1}{3}

$\frac{1}{3}$

— Henry

11

J'hésite à répondre à cela. Ces naissains fréquentistes contre bayésiens sont généralement improductifs et peuvent être méchants et juvéniles. Pour ce que cela vaut, Wagenmakers est une sorte de gros problème, alors que les philosophes chinois de 3 ans et plus, en revanche, ont été oubliés ...

Cependant, je dirais que l'interprétation fréquentiste standard d'un intervalle de confiance de 50% n'est pas que vous devriez être sûr à 50% que la vraie valeur se situe dans l'intervalle, ou qu'il y a une probabilité de 50% qu'elle le fasse. L'idée est plutôt que, si le même processus était répété indéfiniment, le pourcentage des IC qui incluaient la vraie valeur convergerait à 50%. Pour tout intervalle donné, cependant, la probabilité qu'il inclue la vraie valeur est soit 0 soit 1, mais vous ne savez pas lequel .

— gung - Réintégrer Monica
source

5

Je pense que c'est un argument faible pour un dossier solide.

$(s,l)$ peut être un intervalle de confiance de 50% dans le sens défini, mais il en est de même pour , et je pense que cette dernière peut être justifiée comme étant meilleure dans ces circonstances, car elle s’étend sans autre ajustement à des échantillons de plus grande taille; notons également que ce dernier intervalle de confiance n'est jamais plus large que et que sa largeur attendue pour un échantillon de taille est . $\left(\dfrac{3l+s-1}{4},\dfrac{3s+l+1}{4}\right)$ $\frac12$ $n$ $\frac{1}{n+1}$

— Henri
source

Dans l'exemple cité de l'échantillon , mon alternative suggérée donnerait l' intervalle de confiance de , qui est clairement la moitié médiane de l' intervalle de confiance logique de

{9.8, 10.7}

$\{9.8, 10.7\}$

50 %

$50\%$

[10.225, 10.275]

$[10.225,10.275]$

100 %

$100\%$

[10.2, 10.3]

$[10.2,10.3]$

— Henry