Différence entre le d de Cohen et le g de Hedges pour les mesures de taille d'effet


19

Pour une analyse de taille d'effet, je remarque qu'il existe des différences entre le d de Cohen, le g de Hedges et le g * de Hedges.

  • Ces trois mesures sont-elles normalement très similaires?
  • Quel serait un cas où ils produiraient des résultats différents?
  • Est-ce aussi une question de préférence avec laquelle j'utilise ou que je signale?

1
Dans le cas où cela serait utile pour un répondeur potentiel, les formules sont répertoriées ici: en.wikipedia.org/wiki/Effect_size
Jeromy Anglim

Une simulation en R avec des différences n1, n2, s1, s2 et de population variables ferait un bon exercice. N'importe qui?
Jeromy Anglim

Réponses:


18

Les variances du pool g de Cohen et d de Hedges sur l'hypothèse de variances de population égales, mais les pools g utilisant n - 1 pour chaque échantillon au lieu de n, ce qui fournit une meilleure estimation, en particulier plus la taille de l'échantillon est petite. D et g sont quelque peu biaisés positivement, mais seulement de façon négligeable pour des tailles d'échantillon modérées ou plus grandes. Le biais est réduit en utilisant g *. Le d de Glass ne suppose pas des variances égales, il utilise donc le sd d'un groupe témoin ou d'un groupe de comparaison de référence comme standardiseur pour la différence entre les deux moyennes.

Ces tailles d'effet et Cliff et d'autres tailles d'effet non paramétriques sont discutées en détail dans mon livre:

Grissom, RJ et Kim, J, J. (2005). Ampleur des effets pour la recherche: une approche pratique large. Mahwah, NJ: Erlbaum.


8

À ma connaissance, le g de Hedges est une version un peu plus précise du d de Cohen (avec SD groupé) en ce que nous ajoutons un facteur de correction pour les petits échantillons. Les deux mesures s'accordent généralement lorsque l'hypothèse d'homoscédasticité n'est pas violée, mais nous pouvons trouver des situations où ce n'est pas le cas, voir par exemple McGrath & Meyer, Psychological Methods 2006, 11 (4) : 386-401 ( pdf ). D'autres articles sont énumérés à la fin de ma réponse.

J'ai généralement constaté que dans presque toutes les études psychologiques ou biomédicales, c'est le d de Cohen qui est rapporté; cela vient probablement de la règle d'or bien connue pour interpréter son ampleur (Cohen, 1988). Je ne connais aucun article récent considérant le g de Hedges (ou le delta de la falaise comme alternative non paramétrique). Bruce Thompson a une version révisée de la section APA sur la taille de l'effet.

Googler sur les études de Monte Carlo autour des mesures de taille d'effet, j'ai trouvé cet article qui pourrait être intéressant (je n'ai lu que le résumé et la configuration de la simulation): Intervalles de confiance robustes pour les tailles d'effet: une étude comparative du d de Cohen et du Delta Under Non-normality de Cohen et variances hétérogènes (pdf).

À propos de votre deuxième commentaire, le MBESSpackage R comprend divers utilitaires pour le calcul ES (par exemple, smdet les fonctions connexes).

Autres références

  1. Zakzanis, KK (2001). Des statistiques pour dire la vérité, toute la vérité et rien que la vérité: formules, exemples numériques illustratifs et interprétation heuristique des analyses de taille d'effet pour les chercheurs en neuropsychologie. Archives de neuropsychologie clinique , 16 (7), 653-667. ( pdf )
  2. Durlak, JA (2009). Comment sélectionner, calculer et interpréter les tailles d'effet. Journal of Pediatric Psychology ( pdf )

2
Un utilisateur anonyme a voulu ajouter la définition suivante de l' homoscédasticité pour ceux qui pourraient ne pas être familiers avec le terme: "une propriété d'un ensemble de variables aléatoires où chaque variable a la même variance finie".
gung - Rétablir Monica

5

Il semble que lorsque les gens disent que le d de Cohen signifie principalement:

d=x¯1x¯2s

s

s=(X1-X¯1)2+(X2-X¯2)2n1+n2-2

Il existe d'autres estimateurs de l'écart-type groupé, probablement les plus courants en dehors de ce qui précède:

s=(X1-X¯1)2+(X2-X¯2)2n1+n2

La notation ici est remarquablement incohérente, mais parfois les gens disent que la version (c'est-à-dire la version ) est appelée de Cohen , et réservent le nom H de pour la version qui utilise (c'est-à-dire avec la correction de Bessel, la version n1 + n2−2). C'est un peu bizarre, car Cohen a décrit les deux estimateurs de l'écart-type groupé (par exemple, la version à la page 67, Cohen, 1977) avant que Hedges n'en parle (Hedges, 1981).sn1+n2gss

D'autres fois, g de Hedge est réservé pour faire référence à l'une ou l'autre des versions corrigées du biais d'une différence moyenne normalisée développée par Hedges. Hedges (1981) a montré que le d de Cohen était biaisé vers le haut (c'est-à-dire que sa valeur attendue est supérieure à la valeur réelle du paramètre de population), en particulier dans les petits échantillons, et a proposé un facteur de correction pour corriger le biais de Cohen:

G de Hedges (l'estimateur sans biais):

g=(Γ(F/2)F/2Γ((F-1)/2))
Où pour une conception de groupes indépendants, et est la fonction gamma. (à l'origine Hedges 1981, cette version développée à partir de Hedges et Olkin 1985, p. 104)F=n1+n2-2Γ

Cependant, ce facteur de correction est assez complexe sur le plan informatique, donc Hedges a également fourni une approximation triviale sur le plan du calcul qui, bien que légèrement biaisée, convient à presque toutes les fins imaginables:

Hedges (l'approximation triviale sur le plan du calcul):g

g=(1-34(F)-1)
Où pour une conception de groupes indépendants.F=n1+n2-2

(À l'origine de Hedges, 1981, cette version de Borenstein, Hedges, Higgins et Rothstein, 2011, p. 27)

Mais, quant à ce que les gens veulent dire quand ils disent le d de Cohen contre le g de g de Hedges contre g *, les gens semblent se référer à l'un de ces trois estimateurs comme le g de Hedge ou le d de Cohen de manière interchangeable, bien que je n'ai jamais vu quelqu'un écrire " "dans un document de recherche non méthodologique / statistique. Si quelqu'un dit "Cohen de d impartial", vous devrez simplement faire votre meilleure supposition dans l'un des deux derniers (et je pense qu'il pourrait même y avoir une autre approximation qui a été utilisée pour le de Hedge aussi!).gg

Ils sont tous pratiquement identiques si environ, et tous peuvent être interprétés de la même manière. À toutes fins pratiques, à moins que vous n'ayez affaire à de très petits échantillons, peu importe celui que vous utilisez (bien que si vous pouvez choisir, vous pouvez aussi bien utiliser celui que j'ai appelé g de Hedges, car il est impartiale).n>20

Les références:

Borenstein, M., Hedges, LV, Higgins, JP et Rothstein, HR (2011). Introduction à la méta-analyse. West Sussex, Royaume-Uni: John Wiley & Sons.

Cohen, J. (1977). Analyse de puissance statistique pour les sciences du comportement (2e éd.). Hillsdale, NJ, États-Unis: Lawrence Erlbaum Associates, Inc.

Hedges, LV (1981). Théorie de la distribution pour l'estimateur de Glass de la taille d'effet et les estimateurs associés. Journal of Educational Statistics, 6 (2), 107-128. doi: 10.3102 / 10769986006002107

Hedges LV, Olkin I. (1985). Méthodes statistiques pour la méta-analyse. San Diego, Californie: Academic Press


3

Si vous essayez simplement de comprendre la signification de base de g de Hedges, comme je le suis, vous pourriez également trouver cela utile:

L'amplitude du g de Hedges peut être interprétée en utilisant la convention de Cohen (1988 [2]) comme petite (0,2), moyenne (0,5) et grande (0,8). [1]

Leur définition est courte et claire:

Le g de Hedges est une variation du d de Cohen qui corrige les biais dus à la petite taille des échantillons (Hedges et Olkin, 1985). [1] note de bas de page

J'apprécierais que les experts en statistiques modifient ce document pour ajouter des mises en garde importantes à la petite (0,2) moyenne (0,5) et à la grande (0,8) affirmation, pour aider les non-experts à éviter d'interpréter de manière erronée les nombres g de Hedges utilisés dans la recherche en sciences sociales et en psychologie.

[1] http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2848393/ L'effet de la thérapie basée sur la pleine conscience sur l'anxiété et la dépression: une revue méta-analytique Stefan G. Hofmann, Alice T. Sawyer, Ashley A. Witt et Diana Oh. J Consulter Clin Psychol. 2010 avril; 78 (2): 169–183. doi: 10.1037 / a0018555

[2] Cohen J. Analyse de puissance statistique pour les sciences du comportement. 2e éd. Erlbaum; Hillsdale, NJ: 1988 (cité dans [1])


4
+1. Re: petit-moyen-grand, comme première passe, si vous n'avez aucune connaissance ou contexte pertinent, ces `` tailles de t-shirt '' sont OK, mais en réalité, ce qui est un effet petit ou grand variera selon la discipline ou le sujet . De plus, ce n'est pas parce qu'un effet est «grand» qu'il est pratiquement important ou théoriquement significatif.
gung - Rétablir Monica

1

Les autres affiches ont couvert la question des similitudes et des différences entre g et d. Pour ajouter à cela, certains chercheurs estiment que les valeurs de taille d'effet proposées par Cohen sont beaucoup trop généreuses, ce qui conduit à une surinterprétation des effets faibles. Ils ne sont pas non plus liés à r, ce qui donne la possibilité aux chercheurs de convertir dans les deux sens pour obtenir des tailles d'effets plus interprétables. Ferguson (2009, Psychologie professionnelle: recherche et pratique) a suggéré d'utiliser les valeurs suivantes pour l'interprétation de g:

.41, comme le minimum recommandé pour «signification pratique». 1,15, effet modéré 2,70, effet fort

Celles-ci sont évidemment plus rigoureuses / difficiles à réaliser et peu d'expériences en sciences sociales vont avoir des effets forts ... ce qui devrait probablement être le cas.


0

Bruce Thompson a mis en garde contre l'utilisation de Cohen (0,2) aussi petit (0,5) que moyen et (0,8) aussi grand. Cohen n'a jamais voulu que celles-ci soient utilisées comme des interprétations rigides. Toutes les tailles d'effet doivent être interprétées en fonction du contexte de la littérature connexe. Si vous analysez les tailles d'effet associées rapportées sur votre sujet et qu'elles sont (0,1) (0,3) (0,24) et que vous produisez un effet de (0,4), cela peut être "important". Inversement, si toute la littérature connexe a des effets de (0,5) (0,6) (0,7) et que vous avez l'effet de (0,4), elle peut être considérée comme faible. Je sais que c'est un exemple trivial mais impérativement important. Je crois que Thompson a déclaré un jour dans un article: «Nous serions simplement stupides dans une mesure différente» lors de la comparaison des interprétations de la taille des effets avec la façon dont les spécialistes des sciences sociales interprétaient les valeurs de p à l'époque.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.