Pourquoi «statistiquement significatif» n'est-il pas suffisant?


46

J'ai terminé l'analyse des données et obtenu des "résultats statistiquement significatifs", ce qui correspond à mon hypothèse. Cependant, un étudiant en statistiques m'a dit que c'était une conclusion prématurée. Pourquoi? Y a-t-il autre chose à inclure dans mon rapport?


4
Cela dépend beaucoup de ce que vous entendez par "obtenu des résultats statistiquement significatifs compatibles avec une hypothèse". Si votre hypothèse est que le vent est produit par les arbres et que votre expérience montre que dans 100% des observations où les arbres bougeaient, il y avait du vent, vous le trouvez statistiquement significatif et voila votre conclusion est prouvée. Ce qui est évidemment faux. Donc, cela pourrait être un de ces cas.
Sashkello

1
Vous auriez vraiment besoin d'une étude de suivi pour déclarer en toute sécurité un "résultat important" crédible - en utilisant une collecte de données bien conçue, le même modèle et le même test d'hypothèse. Vous devez également vous assurer que votre ensemble de données actuel représente la "population générale" à propos de laquelle vous faites une revendication avec un résultat important (il s'agit d'un problème clé pour l'inférence avec les "données volumineuses")
probabilité,

1
La réponse est sûrement aussi simple que «la corrélation n’est pas un lien de causalité»?
Fractional

1
Voici ce que je préfère : les personnes qui mangent plus de riz ont plus d'enfants. Vérification de l' ensemble la population mondiale, vous obtiendrez des résultats statistiquement signifcatifs ...
Karoly Horvath

4
Excellentes réponses, mais je suis surpris que personne n'ait suggéré la solution évidente: demandez-lui. Chaque fois que quelqu'un vous dit que vous vous trompez au sujet de votre travail ou de quelque chose qui vous tient à cœur, demandez simplement. Dire à quelqu'un qu'il a tort parce que X, y et Z est cool - c'est une opportunité d'apprentissage. Mais juste dire à quelqu'un qu'il a tort et se précipiter est un coup de bite.
Sylverdrag

Réponses:


53

Test d'hypothèses versus estimation de paramètres

En règle générale, les hypothèses sont formulées de manière binaire. Je vais mettre de côté les hypothèses de direction, car elles ne changent pas beaucoup la question. Il est courant, au moins en psychologie, de parler d'hypothèses telles que: la différence entre les moyennes de groupe est ou n'est pas zéro; la corrélation est ou n'est pas zéro; le coefficient de régression est ou n'est pas nul; le r-carré est ou n'est pas zéro. Dans tous ces cas, il existe une hypothèse nulle d'absence d'effet et une hypothèse alternative d'effet.

Cette pensée binaire n’est généralement pas ce qui nous intéresse le plus. Une fois que vous avez réfléchi à votre question de recherche, vous constaterez presque toujours que vous êtes réellement intéressé par l’estimation de paramètres. Vous êtes intéressé par la différence réelle entre les moyennes de groupe, ou la taille de la corrélation, ou la taille du coefficient de régression, ou la quantité de variance expliquée.

Bien sûr, lorsque nous obtenons un échantillon de données, l'estimation de l'échantillon d'un paramètre n'est pas la même que celle du paramètre population. Nous avons donc besoin d’un moyen de quantifier notre incertitude quant à la valeur du paramètre. D'un point de vue fréquentiste, les intervalles de confiance constituent un moyen de le faire, bien que les puristes bayésiens puissent arguer du fait qu'ils ne permettent pas strictement l'inférence que vous pourriez vouloir faire. Dans une perspective bayésienne, les intervalles crédibles sur les densités postérieures offrent un moyen plus direct de quantifier votre incertitude quant à la valeur d'un paramètre de population.

Paramètres / tailles d'effet

S'éloigner de l'approche des tests d'hypothèses binaires vous oblige à penser de manière continue. Par exemple, quelle différence de taille dans les moyennes de groupe serait théoriquement intéressante? Comment feriez-vous la différence entre les moyennes de groupe sur un langage subjectif ou des implications pratiques? Des mesures normalisées de l’effet ainsi que des normes contextuelles sont un moyen de construire un langage permettant de quantifier la signification des différentes valeurs de paramètre. Ces mesures sont souvent appelées "tailles d'effet" (par exemple, d, r, , etc. de Cohen ). Cependant, il est parfaitement raisonnable, et souvent préférable, de parler de l'importance d'un effet en utilisant des mesures non normalisées (par exemple, la différence de moyenne de groupe sur des variables significatives non normalisées telles que les niveaux de revenu, l'espérance de vie, etc.).R2

Il existe une littérature abondante en psychologie (et dans d’autres domaines) critiquant l’accent mis sur les valeurs p, le test de signification des hypothèses nulles, etc. (voir cette recherche Google Scholar ). Dans la littérature, il est souvent recommandé de signaler la taille des effets avec des intervalles de confiance (p. Ex., Groupe de travail sur les APA, Wilkinson, 1999).

Étapes à suivre pour s'éloigner des tests d'hypothèses binaires

Si vous envisagez d'adopter cette façon de penser, je pense que vous pouvez adopter des approches de plus en plus sophistiquées:

  • Approche 1a. Indiquez l'estimation ponctuelle de votre effet sur l'échantillon (par exemple, les différences moyennes de groupe) en termes bruts et normalisés. Lorsque vous rapportez vos résultats, discutez de la signification d’une telle ampleur pour la théorie et la pratique.
  • Approche 1b. Ajoutez à 1a, au moins à un niveau très élémentaire, une idée de l’incertitude entourant votre estimation de paramètre en fonction de la taille de votre échantillon.
  • Méthode 2. Indiquez également les intervalles de confiance sur la taille des effets et intégrez cette incertitude dans votre réflexion sur les valeurs plausibles du paramètre considéré.
  • Approche 3. Indiquez les intervalles crédibles bayésiens et examinez les implications de diverses hypothèses sur cet intervalle crédible, telles que le choix de l’ancien, le processus de génération de données impliqué par votre modèle, etc.

Parmi les nombreuses références possibles, vous verrez Andrew Gelman parler beaucoup de ces problèmes sur son blog et dans ses recherches.

Références

  • Nickerson, RS (2000). Test de signification de l'hypothèse nulle: examen d'une controverse ancienne et persistante. Méthodes psychologiques, 5 (2), 241.
  • Wilkinson, L. (1999). Méthodes statistiques dans les revues de psychologie: lignes directrices et explications. Psychologue américain, 54 (8), 594. PDF

12
Suite au commentaire de Jeromy, pourrais-je vous recommander de lire l'essai de Ziliac et McCloskey sur le culte de la signification statistique. Ce ne sont pas les statistiques les plus époustouflantes, mais elles fournissent une discussion sérieuse - et divertissante - sur la raison pour laquelle la taille des effets, la signification pratique et les fonctions de perte sont extrêmement importantes. deirdremccloskey.com/docs/jsm.pdf
Jim

Je pense que parfois p devrait être inférieur à 0,05. Merci à tous: gung, Jeromy et Jim
Jim Von

1
Sur Ziliak [NB] et McCloskey: Si vous êtes occupé, lisez d' abord phil.vt.edu/dmayo/personal_website/… . Si vous n'êtes pas occupé, lisez-le toujours en premier.
Nick Cox

Je vous en prie, @ JimVon. FWIW, je pense parfois que p devrait être supérieur à 0,05. Cela dépend.
gung - Rétablir Monica

1
Je suis content de voir que le Dr Gelman est nommé ici. Apparemment, il n'aime même pas signaler les valeurs de p, encore moins les utiliser pour des déductions sérieuses. Il plaide également en faveur de la standardisation de toutes vos variables.
shadowtalker

26

Juste pour ajouter aux réponses existantes (qui sont excellentes, en passant). Il est important de savoir que la signification statistique est fonction de la taille de l'échantillon .

Lorsque vous obtenez de plus en plus de données, vous pouvez trouver des différences statistiquement significatives où que vous regardiez. Lorsque la quantité de données est énorme, même les plus infimes effets peuvent avoir une signification statistique. Cela ne signifie pas que les effets sont significatifs de manière pratique.

Lors du test des différences, les valeurs seules ne suffisent pas, car la taille de l'effet requise pour produire un résultat statistiquement significatif diminue avec l'augmentation de la taille de l'échantillon . En pratique, la vraie question est généralement de savoir s’il existe un effet d’une taille minimale donnée (pour être pertinent). Lorsque les échantillons deviennent très grande, -values se rapprochent de sens pour répondre à la réelle question.ppp


C'est le point abordé dans ma diapositive 13 :)
Stéphane Laurent

6
+1 pour cela. Les personnes qui ne réalisent pas que l'importance est fonction de la taille de l'échantillon me rend fou.
Fomite

12

S'il existait une base raisonnable pour soupçonner que votre hypothèse pourrait être vraie avant que vous meniez votre étude; et vous avez mené une bonne étude (par exemple, vous n'avez pas provoqué de confusion); et vos résultats étaient cohérents avec votre hypothèse et statistiquement significatifs; alors je pense que vous allez bien, dans la mesure où cela va.

Cependant, vous ne devriez pas penser que cette importance est tout ce qui est important dans vos résultats. Tout d’abord, vous devriez également regarder la taille de l’ effet (voir ma réponse ici: la taille de l’effet comme hypothèse pour le test de signification ). Vous voudrez peut-être aussi explorer un peu vos données et voir si vous pouvez trouver des surprises potentiellement intéressantes qui mériteraient d'être suivies.


Vous voulez dire que l'hypothèse devrait être raisonnable? Et comment juger si mon hypothèse mènera à une analyse de données dénuée de sens? "Des surprises potentiellement intéressantes" devraient être révélées par Post-hoc?
Jim Von

Ce que je veux dire, c’est que, vraisemblablement, il y avait une raison légitime de mener l’étude à la 1ère place. Les connaissances théoriques actuelles et / ou des études récentes suggèrent que votre hypothèse pourrait être vraie. Votre hypothèse n’est pas susceptible de "conduire à une analyse de données dénuée de sens" sauf si elle est incohérente. Des surprises / caractéristiques potentiellement intéressantes de vos données pourraient très bien être découvertes post-hoc; le fait qu'elles soient des surprises implique que vous ne saviez pas qu'elles se produiraient lors de la planification de l'étude. La question concernant "post-hoc" est de savoir s'il faut croire les surprises - elles doivent être confirmées par des recherches futures.
gung - Réintégrer Monica

7

Avant de signaler ceci et ceci et ceci et cela, commencez par formuler ce que vous voulez apprendre de vos données expérimentales. Le problème principal des tests d’hypothèses habituels (ces tests que nous apprenons à l’école ...) n’est pas la binarité: c’est que ce sont des tests d’hypothèses qui ne sont pas des hypothèses d’intérêt. Voir la diapositive 13 ici (télécharger le pdf pour apprécier les animations). À propos de la taille des effets, il n’existe pas de définition générale de cette notion . Franchement, je ne recommanderais pas de l’utiliser pour des statisticiens non experts, il s’agit de mesures techniques, et non naturelles, d’effet. Votre hypothèse d’intérêt devrait être formulée dans des termes compréhensibles par les profanes.


1
Un petit ajout - l'hypothèse nulle devrait en réalité signifier quelque chose en dehors du contexte de l'analyse des données actuelles pour l'application de la norme HT. Cela ne devrait pas être "inventé" pour que vous ayez quelque chose à rejeter en faveur de votre théorie / constat.
probabilitéislogique

2

Je suis loin d'être un expert en statistiques, mais une des choses sur laquelle les cours de statistiques que j'ai organisés jusqu'à présent a été soulignée est la question de "l'importance pratique". Je crois que cela fait allusion à ce dont Jeromy et Gung parlent en parlant de "taille de l'effet".

Nous avions un exemple en classe d'un régime de 12 semaines qui donnait des résultats de perte de poids statistiquement significatifs, mais l'intervalle de confiance de 95% montrait une perte de poids moyenne comprise entre 0,2 et 1,2 kg (OK, les données étaient probablement facturées mais elles illustrent un point). . Bien que "statistiquement significativement" "diffère de zéro, une perte de poids de 200 grammes sur 12 semaines est-elle un résultat" pratiquement significatif "pour une personne en surpoids qui souhaite retrouver la santé?


C’est le point qui suit ma diapositive 13 :)
Stéphane Laurent

2
C'est également un exemple de test de la "mauvaise" hypothèse nulle. Ce n'est pas la conclusion qui vous intéresse. Un meilleur test d'hypothèse serait que la perte de poids est inférieure à 5 kg vs supérieure à 5 kg.
probabilitéislogic

1

Il est impossible de répondre avec précision sans connaître davantage de détails sur votre étude et les critiques de la personne. Mais voici une possibilité: si vous avez effectué plusieurs tests et que vous choisissez de vous concentrer sur celui qui est sorti p<0.05et d'ignorer les autres, alors cette "signification" a été diluée par le fait que vous y avez porté une attention sélective. Comme une pompe intuitive pour cela, rappelez-vous que cela p=0.05signifie que "ce résultat arriverait par hasard (seulement) 5% du temps, même si l'hypothèse nulle est vraie". Donc, plus vous exécutez de tests, plus il est probable qu’au moins l’un d’entre eux donnera un résultat "significatif" par hasard - même s’il n’ya aucun effet. Voir http://en.wikipedia.org/wiki/Multiple_comparisons et http://en.wikipedia.org/wiki/Post-hoc_analysis


0

Je vous suggère de lire ce qui suit:

Anderson, DR, KP Burnham, Thompson, WL, 2000. Test d'hypothèses nulles: problèmes, prévalence et solution de remplacement. J. Wildl. Gérer. 64, 912-923. Gigerenzer, G., 2004. Statistiques sans esprit. Journal of Socio-Economics 33, 587-606. Johnson, DH, 1999. L'insignifiance des tests de signification statistique. Le Journal of Wildlife Management 63, 763-772.

Les hypothèses nulles sont rarement intéressantes dans la mesure où, de toute expérience ou de tout ensemble d'observations, il y a deux résultats: rejeter correctement le caractère nul ou commettre une erreur de type II. La taille de l'effet correspond à ce que vous êtes probablement intéressé à déterminer et, une fois cela fait, vous devez générer des intervalles de confiance pour cette taille d'effet.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.