C'est une chose qui peut être difficile à comprendre:
- si en moyenne 95% de tous les intervalles de confiance contiennent le paramètre
- et j'ai un intervalle de confiance spécifique
- pourquoi la probabilité que cet intervalle ne contienne pas le paramètre n'est-elle pas également à 95%?
Un intervalle de confiance se rapporte à la procédure d'échantillonnage. Si vous preniez plusieurs échantillons et calculiez un intervalle de confiance de 95% pour chaque échantillon, vous constateriez que 95% de ces intervalles contiennent la moyenne de la population.
Ceci est utile par exemple pour les services qualité industriels. Ces gars-là prélèvent de nombreux échantillons et ils ont maintenant la certitude que la plupart de leurs estimations seront assez proches de la réalité. Ils savent que 95% de leurs estimations sont assez bonnes, mais ils ne peuvent pas en dire autant de chaque estimation spécifique.
Comparez cela à lancer des dés: si vous lancez 600 dés (équitables), combien en lancerez-vous? Votre meilleure estimation est * 600 = 100.16
Cependant, si vous avez jeté UN dé, il est inutile de dire: "Il y a une probabilité de 1/6 ou de 16,6% que j'ai jeté un 6". Pourquoi? Parce que le dé montre soit un 6, soit un autre chiffre. Vous avez lancé un 6 ou pas. La probabilité est donc 1 ou 0. La probabilité ne peut pas être .16
Quand on lui demandait avant le lancer quelle serait la probabilité de lancer un 6 avec UN dé, un Bayésien répondrait " " (selon des informations antérieures: tout le monde sait qu'un dé a 6 côtés et une chance égale tomber sur l’un d’eux), mais un Frequentist dira "Aucune idée" car le fréquentisme est basé uniquement sur les données, et non sur des a priori ou des informations extérieures.16
De même, si vous n'avez qu'un seul échantillon (donc un intervalle de confiance), vous n'avez aucun moyen de dire quelle est la probabilité que la moyenne de la population se situe dans cet intervalle. La moyenne (ou n'importe quel paramètre) y est, ou pas. La probabilité est 1 ou 0.
En outre, il n’est pas correct de dire que les valeurs comprises dans l’intervalle de confiance sont plus susceptibles que celles situées en dehors de cet intervalle. J'ai fait une petite illustration; tout est mesuré en ° C. N'oubliez pas que l'eau gèle à 0 ° C et bout à 100 ° C.
Le cas: dans un lac froid, nous aimerions estimer la température de l’eau qui coule sous la glace. Nous mesurons la température dans 100 endroits. Voici mes données:
- 0,1 ° C (mesurée dans 49 endroits);
- 0,2 ° C (également dans 49 endroits);
- 0 ° C (. Dans 1 emplacement Ce fut l' eau juste sur le point de gel);
- 95 ° C (à un endroit, il y a une usine qui décharge illégalement de l'eau très chaude dans le lac).
- Température moyenne: 1,1 ° C;
- Écart type: 1,5 ° C;
- 95% -CI: (-0,8 ° C ...... + 3,0 ° C).
Les températures comprises dans cet intervalle de confiance NE SONT certainement PAS plus probables que celles situées en dehors de celui-ci. La température moyenne de l'eau qui coule dans ce lac NE PEUT PAS être plus froide que 0 ° C, sinon ce ne serait pas de l'eau mais de la glace. Une partie de cet intervalle de confiance (à savoir la section de -0,8 à 0) a en fait une probabilité de 0% de contenir le paramètre vrai.
En conclusion: les intervalles de confiance sont un concept fréquentiste et sont donc basés sur l'idée d'échantillons répétés. Si de nombreux chercheurs prélèvent des échantillons de ce lac et que tous ces chercheurs calculent des intervalles de confiance, 95% de ces intervalles contiendront le vrai paramètre. Mais pour un seul intervalle de confiance, il est impossible de dire quelle est la probabilité qu'il contienne le vrai paramètre.