Signification des erreurs standard 2.04? Significativement différent lorsque les intervalles de confiance se chevauchent largement?

L'image ci-dessous est tirée de cet article dans Psychological Science . Un collègue a souligné deux choses inhabituelles à ce sujet:

Selon la légende, les barres d'erreur indiquent «± 2,04 erreurs standard, l'intervalle de confiance à 95%». Je n'ai vu que ± 1,96 SE utilisé pour l'IC à 95%, et je ne trouve rien sur le 2,04 SE utilisé à quelque fin que ce soit. Est-ce que 2.04 SE a une signification acceptée ?
Le texte indique que les comparaisons par paires planifiées ont trouvé des différences significatives pour la magnitude moyenne de sursaut d'erreur par rapport aux essais prévisibles corrects (t (30) = 2,51, p <0,01) et l'erreur par rapport aux essais imprévisibles corrects (t (30) = 2,61, p <0,01) (le test omnibus F était également significatif à p <0,05). Cependant, le graphique montre les barres d'erreur pour les trois conditions se chevauchant sensiblement. Si les intervalles ± 2,04 SE se chevauchent, comment les valeurs peuvent-elles être significativement différentes à p <0,05? Le chevauchement est suffisamment grand pour que je suppose que les intervalles ± 1,96 SE se chevauchent également.

graphique à barres montrant les barres d'erreur 2.04 SE

confidence-interval standard-error

— octern
source

Excellentes réponses. Je tiens à souligner que (comme cela a déjà été souligné) la comparaison des intervalles de confiance à 95% n'est pas la même chose que la réalisation de tests statistiques au niveau de signification 0,05. Il existe bien sûr des articles traitant de cela. Si les intervalles de confiance sont les seules statistiques disponibles, Payton et al suggèrent d'utiliser des intervalles de 85% pour le niveau de signification 0,05 pour les données gaussiennes. Ils suivent leur travail ici .

— Martin Berglund

Merci, @Martin. Pour boucler la boucle: bien que je n'ai pas examiné l'article de Payton et al , la base de 85% est claire: la valeur z correspondant à 84%, au carré , est égale à ; l'addition de deux d'entre eux donne ; sa racine carrée est , ce qui correspond à peu près à la valeur z correspondant à un intervalle de 95%. Je suppose que Payton a arrondi 84% à 85%. En d'autres termes, leur recommandation (quelle qu'elle soit) a pu être expliquée par la même analyse que j'ai fournie.

2

$2$

4

$4$

2

$2$

— whuber

@MartinBerglund et whuber sont venus à travers vos réponses en se demandant si mon calcul indépendant des intervalles de confiance de 83,4% pour effectuer des tests statistiques au niveau 0,05 était original - évidemment non! Merci pour la référence papier, très utile.

— tristan

Réponses:

$2.04$ est le multiplicateur à utiliser avec une distribution de Student t avec 31 degrés de liberté. Les citations suggèrent que degrés de liberté sont appropriés, auquel cas le multiplicateur correct est . $30$ $2.042272 \approx 2.04$
Les moyennes sont comparées en termes d' erreurs standard . L'erreur standard est généralement fois l'écart type, où (probablement autour de ici) est la taille de l'échantillon. Si la légende est correcte en appelant ces barres les «erreurs standard», alors les écarts-types doivent être au moins fois supérieurs aux valeurs d'environ comme indiqué. Un ensemble de données de valeurs positives avec un écart type de et une moyenne entre et devrait avoir la plupart des valeurs proches de $1/\sqrt{n}$ $n$ $30+1=31$ $\sqrt{31} \approx 5.5$ $6$ $31$ $6 \times 5.5 = 33$ $14$ $18$ $0$ et un petit nombre de grandes valeurs énormes, ce qui semble assez improbable. (S'il en était ainsi, alors toute l'analyse basée sur les statistiques de Student ne serait pas valide de toute façon.) Nous devons conclure que la figure montre probablement des écarts-types, pas des erreurs-types .
Les comparaisons de moyennes ne sont pas basées sur le chevauchement (ou son absence) des intervalles de confiance. Deux IC à 95% peuvent se chevaucher, mais peuvent néanmoins indiquer des différences très importantes. La raison en est que l'erreur-type de la différence des moyennes ( indépendantes ) est, au moins approximativement, la racine carrée de la somme des carrés des erreurs-types des moyennes. Par exemple, si l'erreur standard d'une moyenne de est égale à et l'erreur standard d'une moyenne de est égale à , alors l'IC de la première moyenne (en utilisant un multiple de ) s'étendra de à et l'IC de le second s'étendra de $14$ $1$ $17$ $1$ $2.04$ $11.92$ $16.08$ $14.92$ à , avec un chevauchement important. Néanmoins, le SE de la différence sera égal à . La différence de moyennes, , est supérieure à fois cette valeur: elle est significative. $19.03$ $\sqrt{1^2+1^2}\approx 1.41$ $17-14=3$ $2.04$
Ce sont des comparaisons par paire . Les valeurs individuelles peuvent présenter beaucoup de variabilité tandis que leurs différences peuvent être très cohérentes. Par exemple, un ensemble de paires comme , , , , , , , , etc., présente une variation dans chaque composant, mais les différences sont toujours de . Bien que cette différence soit faible par rapport à l'un ou l'autre des composants, sa cohérence montre qu'elle est statistiquement significative. $(14,14.01)$ $(15,15.01)$ $(16,16.01)$ $(17,17.01)$ $0.01$

— whuber
source

Merci beaucoup. L'article ne dit nulle part que les tests post-hoc étaient des comparaisons appariées entre les réponses de chaque participant sur les deux types d'essais, et j'ai donc sauté à la conclusion qu'ils le traitaient comme une comparaison entre les sujets (même si ce serait moins approprié et moins puissant). Je pense que vous devez avoir raison, et ils faisaient le test le plus sensible (et le plus difficile à représenter graphiquement). En ce qui concerne le point # 3, ma seule réponse est que j'ai clairement besoin de réapprendre certaines statistiques ...

— octern

Je reprenais une phrase dans votre question, «des comparaisons planifiées par paires». Le reste des résultats que vous citez, cependant, suggèrent qu'il ne s'agissait pas de comparaisons par paires, mais provenaient plus probablement d'un calcul similaire à celui du point 3 de ma réponse.

— whuber

Ce que je voulais dire par là, c'est qu'ils faisaient des tests post-hoc comparant directement deux des trois conditions, plutôt que de faire un test omnibus qui comparait les 3 conditions. Désolé pour la confusion. Mais maintenant que je le regarde, je pense que vous aviez raison quand même. La façon dont ils rapportent la statistique du test omnibus ( F(2,60)=5.64, p<.05) implique qu'il s'agissait d'un test à mesures répétées, et donc que les tests post hoc l'étaient probablement aussi.

— octern

Merci pour votre excellente réponse. "La raison en est que l'erreur-type de la différence des moyennes (indépendantes) est, au moins approximativement, la racine carrée de la somme des carrés des erreurs-types des moyennes." Je suis à la recherche de références, qui en discutent mais n'en trouvent aucune. J'apprécierais quelques conseils à cet égard. Peut-être que quelqu'un pourrait m'aider?

— Johannes

@Johannes Le carré de l'ES est proportionnel à la variance de la moyenne de l'échantillon. (La constante de proportionnalité dépend de la définition de chacun et peut varier légèrement avec la taille de l'échantillon.) L'indépendance implique que la variance de la distribution d'échantillonnage de la différence de moyennes est la somme des carrés des SE.

— whuber

Une partie de la confusion ici est la représentation confuse des données. Il semble que ce soit un plan de mesures répétées, mais les barres d'erreur sont des intervalles de confiance de la façon dont la vraie valeur moyenne a été estimée. Un objectif principal des mesures répétées est d'éviter de collecter suffisamment de données pour obtenir une estimation de la qualité de la valeur moyenne brute. Par conséquent, les barres d'erreur telles que celles présentées n'ont vraiment aucun rapport avec l'histoire racontée. La valeur de l'intérêt critique est l'effet. Le but des graphiques étant de mettre en évidence le point principal de l'histoire, la représentation graphique des effets et de leurs intervalles de confiance aurait été plus appropriée.

— John
source

Je vous remercie! Je luttais un peu pour expliquer pourquoi le graphique semblait ne pas représenter l'analyse.

— octern