Relation entre l'intervalle de confiance et le test d'hypothèse statistique pour le test t

31

Il est bien connu que les intervalles de confiance et le test des hypothèses statistiques sont étroitement liés. Mes questions portent sur la comparaison des moyennes pour deux groupes sur la base d'une variable numérique. Supposons que cette hypothèse soit testée à l'aide du test t. De l'autre côté, on peut calculer les intervalles de confiance pour les moyennes des deux groupes. Existe-t-il une relation entre le chevauchement des intervalles de confiance et le rejet de l'hypothèse nulle selon laquelle les moyennes sont égales (en faveur de l'alternative qui signifie différentes - test bilatéral)? Par exemple, un test pourrait rejeter l'hypothèse nulle si les intervalles de confiance ne se chevauchent pas.

hypothesis-testing confidence-interval

— Lan
source

31

Oui, il existe des relations simples entre les comparaisons d'intervalles de confiance et les tests d'hypothèse dans un large éventail de paramètres pratiques. Cependant, en plus de vérifier que les procédures CI et le test t sont appropriés pour nos données, nous devons vérifier que les tailles d'échantillon ne sont pas trop différentes et que les deux ensembles ont des écarts-types similaires. Nous ne devrions pas non plus essayer de dériver des valeurs de p très précises en comparant deux intervalles de confiance, mais nous devrions être heureux de développer des approximations efficaces.

En essayant de réconcilier les deux réponses déjà données (par @John et @Brett), cela aide à être mathématiquement explicite. Une formule pour un intervalle de confiance bilatéral symétrique approprié pour le réglage de cette question est

CI = m \pm \frac{t_{α} (n) s}{\sqrt{n}}

$\text{CI} = m \pm \frac{t_\alpha(n) s}{\sqrt{n}}$

où $m$ est la moyenne de l'échantillon de $n$ observations indépendantes, $s$ est l'écart-type de l'échantillon, $2\alpha$ est la taille de test souhaitée (taux de faux positifs maximum) et $t_\alpha(n)$ est le centile supérieur $1-\alpha$ de la distribution de Student t avec $n-1$ degrés de liberté. (Cette légère déviation de la notation conventionnelle simplifie l'exposition en évitant tout besoin de s'inquiéter de la distinction $n$ vs $n-1$ , qui sera de toute façon sans conséquence.)

En utilisant les indices $1$ et $2$ pour distinguer deux ensembles de données indépendants pour la comparaison, $1$ correspondant au plus grand des deux moyens, un non- chevauchement des intervalles de confiance est exprimé par l'inégalité (limite de confiance inférieure 1) $\gt$ (limite de confiance supérieure 2 ); à savoir. ,

m_{1} - \frac{t_{α} (n_{1}) s_{1}}{\sqrt{n_{1}}} > m_{2} + \frac{t_{α} (n_{2}) s_{2}}{\sqrt{n_{2}}} .

$m_1 - \frac{t_\alpha(n_1) s_1}{\sqrt{n_1}} \gt m_2 + \frac{t_\alpha(n_2) s_2}{\sqrt{n_2}}.$

Cela peut ressembler à la statistique t du test d'hypothèse correspondant (pour comparer les deux moyennes) avec de simples manipulations algébriques, ce qui donne

\frac{m_{1} - m_{2}}{\sqrt{s_{1}^{2} / n_{1} + s_{2}^{2} / n_{2}}} > \frac{s_{1} \sqrt{n_{2}} t_{α} (n_{1}) + s_{2} \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} s_{2}^{2} + n_{2} s_{1}^{2}}} .

$\frac{m_1-m_2}{\sqrt{s_1^2/n_1 + s_2^2/n_2}} \gt \frac{s_1\sqrt{n_2}t_\alpha(n_1) + s_2\sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 s_2^2 + n_2 s_1^2}}.$

Le côté gauche est la statistique utilisée dans le test d'hypothèse; il est généralement comparé à un centile d'une distribution de Student t avec $n_1+n_2$ degrés de liberté: c'est-à-dire à $t_\alpha(n_1+n_2)$ . Le côté droit est une moyenne pondérée biaisée des centiles de distribution t d'origine.

Jusqu'à présent, l'analyse justifie la réponse de @Brett: il ne semble pas exister de relation simple. Cependant, approfondissons. Je suis inspiré de le faire parce que, intuitivement, un non-chevauchement des intervalles de confiance devrait dire quelque chose!

Tout d'abord, notez que cette forme de test d'hypothèse n'est valide que lorsque nous nous attendons à ce que $s_1$ et $s_2$ soient au moins approximativement égaux. (Sinon, nous sommes confrontés au problème notoire de Behrens-Fisher et à sa complexité.) En vérifiant l'égalité approximative des $s_i$ , nous pourrions alors créer une simplification approximative sous la forme

\frac{m_{1} - m_{2}}{s \sqrt{1 / n_{1} + 1 / n_{2}}} > \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} .

$\frac{m_1-m_2}{s\sqrt{1/n_1 + 1/n_2}} \gt \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}.$

Ici, $s \approx s_1 \approx s_2$ . En réalité, nous ne devrions pas nous attendre à ce que cette comparaison informelle des limites de confiance ait la même taille que $\alpha$ . Notre question est alors de savoir s'il existe un $\alpha'$ tel que le côté droit soit (au moins approximativement) égal à la statistique t correcte. A savoir, pour quel $\alpha'$ est-il vrai que

t_{α^{'}} (n_{1} + n_{2}) = \frac{\sqrt{n_{2}} t_{α} (n_{1}) + \sqrt{n_{1}} t_{α} (n_{2})}{\sqrt{n_{1} + n_{2}}} ?

$t_{\alpha'}(n_1+n_2) = \frac{\sqrt{n_2}t_\alpha(n_1) + \sqrt{n_1}t_\alpha(n_2)}{\sqrt{n_1 + n_2}}\text{?}$

Il s'avère que pour des tailles d'échantillons égales, $\alpha$ et $\alpha'$ sont connectés (avec une précision assez élevée) par une loi de puissance. Par exemple, voici un diagramme log-log des deux pour les cas $n_1=n_2=2$ (ligne bleue la plus basse), $n_1=n_2=5$ (ligne rouge centrale), $n_1=n_2=\infty$ ( ligne d'or la plus haute). La ligne pointillée verte du milieu est une approximation décrite ci-dessous. La rectitude de ces courbes contredit une loi de puissance. Cela varie avec $n=n_1=n_2$ , mais pas beaucoup.

Terrain 1

La réponse dépend de l'ensemble $\{n_1, n_2\}$ , mais il est naturel de se demander dans quelle mesure il varie vraiment avec les changements de taille des échantillons. En particulier, nous pourrions espérer que pour des tailles d'échantillon modérées à grandes (peut-être $n_1 \ge 10, n_2 \ge 10$ ou à peu près), la taille de l'échantillon fait peu de différence. Dans ce cas, nous pourrions développer une manière quantitative de relier $\alpha'$ à $\alpha$ .

$\alpha'$ $\alpha$

α^{'} \approx e α^{1.91};

$\alpha' \approx e \alpha^{1.91};$

C'est,

α^{'} \approx \exp (1 + 1.91 \log (α)) .

$\alpha' \approx \exp(1 + 1.91\log(\alpha)).$

This formula works reasonably well in these common situations:

Both sample sizes are close to each other, $n_1 \approx n_2$ , and $\alpha$ is not too extreme ( $\alpha \gt .001$ or so).
One sample size is within about three times the other and the smallest isn't too small (roughly, greater than $10$ ) and again $\alpha$ is not too extreme.
One sample size is within three times the other and $\alpha \gt .02$ or so.

The relative error (correct value divided by the approximation) in the first situation is plotted here, with the lower (blue) line showing the case $n_1=n_2=2$ , the middle (red) line the case $n_1=n_2=5$ , and the upper (gold) line the case $n_1=n_2=\infty$ . Interpolating between the latter two, we see that the approximation is excellent for a wide range of practical values of $\alpha$ when sample sizes are moderate (around 5-50) and otherwise is reasonably good.

Plot 2

This is more than good enough for eyeballing a bunch of confidence intervals.

To summarize, the failure of two $2\alpha$ -size confidence intervals of means to overlap is significant evidence of a difference in means at a level equal to $2e \alpha^{1.91}$ , provided the two samples have approximately equal standard deviations and are approximately the same size.

I'll end with a tabulation of the approximation for common values of $2\alpha$ .

$2\alpha$ $2\alpha'$
0.1 0.02

0.05 0.005

0.01 0.0002

0.005 0.00006

For example, when a pair of two-sided 95% CIs ( $2\alpha=.05$ ) for samples of approximately equal sizes do not overlap, we should take the means to be significantly different, $p \lt .005$ . The correct p-value (for equal sample sizes $n$ ) actually lies between $.0037$ ( $n=2$ ) and $.0056$ ( $n=\infty$ ).

This result justifies (and I hope improves upon) the reply by @John. Thus, although the previous replies appear to be in conflict, both are (in their own ways) correct.

— whuber
source

7

Non, pas simple du moins.

Il existe cependant une correspondance exacte entre le test t de différence entre deux moyennes et l'intervalle de confiance pour la différence entre les deux moyennes.

Si l'intervalle de confiance pour la différence entre deux moyennes contient zéro, un test t pour cette différence échouerait à rejeter null au même niveau de confiance. De même, si l'intervalle de confiance ne contient pas 0, le test t rejetterait la valeur nulle.

Ce n'est pas la même chose que le chevauchement entre les intervalles de confiance pour chacune des deux moyennes.

— Brett
source

The reply by @John, which although at present is not quite right in the details, correctly points out that yes, you can relate overlaps of CIs to test p-values. The relationship is not any more complex than the t-test itself. This has the appearance of contradicting your primary conclusion as stated in the first line. How would you resolve this difference?

— whuber

Je ne pense pas qu'ils soient contradictoires. Je peux ajouter quelques mises en garde. Mais, dans le sens général, sans hypothèses et connaissances supplémentaires sur les paramètres en dehors de la présentation de l'intervalle (la variance, la taille de l'échantillon), la réponse reste telle quelle. Non, pas simple du moins.

— Brett

5

Under typical assumptions of equal variance, yes, there is a relationship. If the bars overlap by less than the length of one bar * sqrt(2) then a t-test would find them to be significantly different at alpha = 0.05. If the ends of the bars just barely touch then a difference would be found at 0.01. If the confidence intervals for the groups are not equal one typically takes the average and applies the same rule.

Alternatively, if the width of a confidence interval around one of the means is w then the least significant difference between two values is w * sqrt(2). This is simple when you think of the denominator in the independent groups t-test, sqrt(2*MSE/n), and the factor for the CI which, sqrt(MSE/n).

(95% CIs assumed)

There's a simple paper on making inferences from confidence intervals around independent means here. It will answer this question and many other related ones you may have.

Cumming, G., & Finch, S. (2005, March). Inference by eye: confidence intervals, and how to read pictures of data. American Psychologist, 60(2), 170-180.

— John
source

2

I believe you need also to assume the two groups have the same sizes.

— whuber

roughly, yes...

— John