La réponse approximative à la question est qu'un intervalle de confiance à 95% vous permet d'être sûr à 95% que la vraie valeur du paramètre se situe dans l'intervalle. Cependant, cette réponse approximative est à la fois incomplète et inexacte.
L'incomplétude réside dans le fait qu'il n'est pas clair que "95% confiant" signifie quelque chose de concret, ou si c'est le cas, alors ce sens concret ne serait pas universellement accepté par même un petit échantillon de statisticiens. Le sens de la confiance dépend de la méthode utilisée pour obtenir l'intervalle et du modèle d'inférence utilisé (qui, je l'espère, deviendra plus clair ci-dessous).
L'inexactitude réside dans le fait que de nombreux intervalles de confiance ne sont pas conçus pour vous dire quoi que ce soit sur l'emplacement de la valeur réelle du paramètre pour le cas expérimental particulier qui a donné l'intervalle de confiance! Cela surprendra beaucoup de gens, mais cela découle directement de la philosophie Neyman-Pearson qui est clairement énoncée dans cette citation de leur article de 1933 "Sur le problème des tests les plus efficaces des hypothèses statistiques":
Nous sommes enclins à penser qu'en ce qui concerne une hypothèse particulière, aucun test basé sur la théorie des probabilités ne peut à lui seul fournir une preuve valable de la vérité ou du mensonge de cette hypothèse.
Mais nous pouvons regarder le but des tests d'un autre point de vue. Sans espérer savoir si chaque hypothèse distincte est vraie ou fausse, nous pouvons rechercher des règles pour régir notre comportement à leur égard, après quoi nous nous assurons que, sur le long terme de l'expérience, nous ne nous tromperons pas trop souvent.
Les intervalles qui sont basés sur l '«inversion» des tests d'hypothèse NP hériteront donc de ce test la nature d'avoir des propriétés d'erreur à long terme connues sans permettre de déduire les propriétés de l'expérience qui les a produites! Ma compréhension est que cela protège contre l'inférence inductive, ce que Neyman considérait apparemment comme une abomination.
Neyman revendique explicitement le terme «intervalle de confiance» et l'origine de la théorie des intervalles de confiance dans son article de 1941 Biometrika «Argument fiduciaire et la théorie des intervalles de confiance». Dans un sens, donc, tout ce qui est correctement un intervalle de confiance joue selon ses règles et donc la signification d'un intervalle individuel ne peut être exprimée qu'en termes de taux à long terme auquel les intervalles calculés par cette méthode contiennent (couvrent) le vrai pertinent valeur du paramètre.
Nous devons maintenant bifurquer la discussion. Un volet suit la notion de «couverture» et l'autre suit des intervalles non neymaniens qui sont comme des intervalles de confiance. Je vais reporter le premier afin de pouvoir terminer ce post avant qu'il ne devienne trop long.
Il existe de nombreuses approches différentes qui donnent des intervalles que l'on pourrait appeler des intervalles de confiance non neymaniens. Le premier d'entre eux est les intervalles fiduciaux de Fisher. (Le mot `` fiducial '' peut effrayer beaucoup de gens et susciter des sourires moqueurs d'autrui, mais je laisse cela de côté ...) Pour certains types de données (par exemple, normal avec une variance de population inconnue), les intervalles calculés par la méthode de Fisher sont numériquement identiques à ceux de intervalles qui seraient calculés par la méthode de Neyman. Cependant, ils invitent à des interprétations diamétralement opposées. Les intervalles neymaniens ne reflètent que les propriétés de couverture à long terme de la méthode, tandis que les intervalles de Fisher sont destinés à soutenir l'inférence inductive concernant les vraies valeurs des paramètres pour l'expérience particulière qui a été réalisée.
Le fait qu'un ensemble de bornes d'intervalle puisse provenir de méthodes basées sur l'un ou l'autre de deux paradigmes philosophiquement distincts conduit à une situation vraiment déroutante - les résultats peuvent être interprétés de deux manières contradictoires. D'après l'argument fiducial, il y a une probabilité de 95% qu'un intervalle fiduciaire particulier de 95% contienne la vraie valeur du paramètre. De la méthode de Neyman, nous savons seulement que 95% des intervalles calculés de cette manière contiendront la vraie valeur du paramètre, et nous devons dire des choses confuses quant à la probabilité que l'intervalle contenant la vraie valeur du paramètre soit inconnu mais soit 1 ou 0.
Dans une large mesure, l'approche de Neyman a dominé celle de Fisher. C'est très regrettable, à mon avis, car cela ne conduit pas à une interprétation naturelle des intervalles. (Relisez la citation ci-dessus de Neyman et Pearson et voyez si elle correspond à votre interprétation naturelle des résultats expérimentaux. Probablement pas.)
Si un intervalle peut être correctement interprété en termes de taux d'erreur globaux mais aussi correctement en termes d'inférence locale, je ne vois pas de bonne raison d'interdire aux utilisateurs d'intervalle de l'interprétation plus naturelle offerte par ce dernier. Ainsi, ma suggestion est que la bonne interprétation d'un intervalle de confiance est LES DEUX:
Neymanian: Cet intervalle de 95% a été construit par une méthode qui donne des intervalles qui couvrent la vraie valeur du paramètre à 95% des occasions à long terme (... de notre expérience statistique).
Pêcheur: cet intervalle de 95% a une probabilité de 95% de couvrir la vraie valeur du paramètre.
(Les méthodes bayésienne et de vraisemblance donneront également des intervalles avec des propriétés fréquentistes souhaitables. De tels intervalles invitent à des interprétations légèrement différentes qui se sentiront probablement plus naturelles que le neymanien.)