Oui, il existe des relations simples entre les comparaisons d'intervalles de confiance et les tests d'hypothèse dans un large éventail de paramètres pratiques. Cependant, en plus de vérifier que les procédures CI et le test t sont appropriés pour nos données, nous devons vérifier que les tailles d'échantillon ne sont pas trop différentes et que les deux ensembles ont des écarts-types similaires. Nous ne devrions pas non plus essayer de dériver des valeurs de p très précises en comparant deux intervalles de confiance, mais nous devrions être heureux de développer des approximations efficaces.
En essayant de réconcilier les deux réponses déjà données (par @John et @Brett), cela aide à être mathématiquement explicite. Une formule pour un intervalle de confiance bilatéral symétrique approprié pour le réglage de cette question est
CI=m±tα(n)sn−−√
où m est la moyenne de l'échantillon de n observations indépendantes, s est l'écart-type de l'échantillon, 2α est la taille de test souhaitée (taux de faux positifs maximum) et tα(n) est le centile supérieur 1−α de la distribution de Student t avec n−1 degrés de liberté. (Cette légère déviation de la notation conventionnelle simplifie l'exposition en évitant tout besoin de s'inquiéter de la distinction n vs n−1 , qui sera de toute façon sans conséquence.)
En utilisant les indices 1 et 2 pour distinguer deux ensembles de données indépendants pour la comparaison, 1 correspondant au plus grand des deux moyens, un non- chevauchement des intervalles de confiance est exprimé par l'inégalité (limite de confiance inférieure 1) > (limite de confiance supérieure 2 ); à savoir. ,
m1−tα(n1)s1n1−−√>m2+tα(n2)s2n2−−√.
Cela peut ressembler à la statistique t du test d'hypothèse correspondant (pour comparer les deux moyennes) avec de simples manipulations algébriques, ce qui donne
m1−m2s21/n1+s22/n2−−−−−−−−−−−√>s1n2−−√tα(n1)+s2n1−−√tα(n2)n1s22+n2s21−−−−−−−−−√.
Le côté gauche est la statistique utilisée dans le test d'hypothèse; il est généralement comparé à un centile d'une distribution de Student t avec n1+n2 degrés de liberté: c'est-à-dire à tα(n1+n2) . Le côté droit est une moyenne pondérée biaisée des centiles de distribution t d'origine.
Jusqu'à présent, l'analyse justifie la réponse de @Brett: il ne semble pas exister de relation simple. Cependant, approfondissons. Je suis inspiré de le faire parce que, intuitivement, un non-chevauchement des intervalles de confiance devrait dire quelque chose!
Tout d'abord, notez que cette forme de test d'hypothèse n'est valide que lorsque nous nous attendons à ce que s1 et s2 soient au moins approximativement égaux. (Sinon, nous sommes confrontés au problème notoire de Behrens-Fisher et à sa complexité.) En vérifiant l'égalité approximative des si , nous pourrions alors créer une simplification approximative sous la forme
m1−m2s1/n1+1/n2−−−−−−−−−−√>n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√.
Ici, s≈s1≈s2 . En réalité, nous ne devrions pas nous attendre à ce que cette comparaison informelle des limites de confiance ait la même taille que α . Notre question est alors de savoir s'il existe un α′ tel que le côté droit soit (au moins approximativement) égal à la statistique t correcte. A savoir, pour quel α′ est-il vrai que
tα′(n1+n2)=n2−−√tα(n1)+n1−−√tα(n2)n1+n2−−−−−−√?
Il s'avère que pour des tailles d'échantillons égales, α et α′ sont connectés (avec une précision assez élevée) par une loi de puissance. Par exemple, voici un diagramme log-log des deux pour les cas n1=n2=2 (ligne bleue la plus basse), n1=n2=5 (ligne rouge centrale), n1=n2=∞ ( ligne d'or la plus haute). La ligne pointillée verte du milieu est une approximation décrite ci-dessous. La rectitude de ces courbes contredit une loi de puissance. Cela varie avec n=n1=n2 , mais pas beaucoup.
La réponse dépend de l'ensemble {n1,n2} , mais il est naturel de se demander dans quelle mesure il varie vraiment avec les changements de taille des échantillons. En particulier, nous pourrions espérer que pour des tailles d'échantillon modérées à grandes (peut-être n1≥10,n2≥10 ou à peu près), la taille de l'échantillon fait peu de différence. Dans ce cas, nous pourrions développer une manière quantitative de relier α′ à α .
α′α
α′≈eα1.91;
C'est,
α′≈exp(1+1.91log(α)).
This formula works reasonably well in these common situations:
Both sample sizes are close to each other, n1≈n2, and α is not too extreme (α>.001 or so).
One sample size is within about three times the other and the smallest isn't too small (roughly, greater than 10) and again α is not too extreme.
One sample size is within three times the other and α>.02 or so.
The relative error (correct value divided by the approximation) in the first situation is plotted here, with the lower (blue) line showing the case n1=n2=2, the middle (red) line the case n1=n2=5, and the upper (gold) line the case n1=n2=∞. Interpolating between the latter two, we see that the approximation is excellent for a wide range of practical values of α when sample sizes are moderate (around 5-50) and otherwise is reasonably good.
This is more than good enough for eyeballing a bunch of confidence intervals.
To summarize, the failure of two 2α-size confidence intervals of means to overlap is significant evidence of a difference in means at a level equal to 2eα1.91, provided the two samples have approximately equal standard deviations and are approximately the same size.
I'll end with a tabulation of the approximation for common values of 2α.
2α 2α′
0.1 0.02
0.05 0.005
0.01 0.0002
0.005 0.00006
For example, when a pair of two-sided 95% CIs (2α=.05) for samples of approximately equal sizes do not overlap, we should take the means to be significantly different, p<.005. The correct p-value (for equal sample sizes n) actually lies between .0037 (n=2) and .0056 (n=∞).
This result justifies (and I hope improves upon) the reply by @John. Thus, although the previous replies appear to be in conflict, both are (in their own ways) correct.