Que signifie "scientifiques se lèvent contre signification statistique"? (Commentaire dans Nature)


61

Le titre du commentaire dans Nature Les scientifiques se soulèvent contre la signification statistique commence par:

Valentin Amrhein, Sander Greenland, Blake McShane et plus de 800 signataires appellent à la fin des revendications excitées et au rejet d'effets potentiellement cruciaux.

et plus tard contient des déclarations comme:

Encore une fois, nous ne préconisons pas une interdiction des valeurs de p, des intervalles de confiance ou d'autres mesures statistiques, mais seulement que nous ne devrions pas les traiter de manière catégorique. Cela inclut la dichotomisation statistiquement significative ou non, ainsi que la catégorisation sur la base d'autres mesures statistiques telles que les facteurs de Bayes.

Je pense comprendre que l'image ci-dessous n'indique pas que les deux études sont en désaccord, car l'une "exclut" l'absence d'effet, tandis que l'autre ne le fait pas. Mais l'article semble aller beaucoup plus en profondeur que je ne peux le comprendre.

Vers la fin, il semble y avoir un résumé en quatre points. Est-il possible de les résumer encore plus simplement pour ceux d'entre nous qui lisons des statistiques plutôt que de les écrire?

Lorsque vous parlez d’intervalles de compatibilité, gardez à l’esprit quatre choses.

  • Premièrement, ce n'est pas parce que l'intervalle donne les valeurs les plus compatibles avec les données, compte tenu des hypothèses, que les valeurs situées en dehors de cette plage sont incompatibles. ils sont juste moins compatibles ...

  • Deuxièmement, toutes les valeurs contenues à l'intérieur ne sont pas également compatibles avec les données, compte tenu des hypothèses ...

  • Troisièmement, à l'instar du seuil de 0,05 dont il est issu, la valeur par défaut de 95% utilisée pour calculer les intervalles est elle-même une convention arbitraire ...

  • Enfin, et le plus important de tous, soyez humble: les évaluations de compatibilité reposent sur l'exactitude des hypothèses statistiques utilisées pour calculer l'intervalle ...


Nature: les scientifiques se soulèvent contre la signification statistique


13
En gros, ils veulent remplir les documents de recherche avec encore plus de faux positifs!
David

12
Voir la discussion sur le blog de Gelman: statmodeling.stat.columbia.edu/2019/03/20/… . De toute évidence, l'article soulève des points valables, mais voir les commentaires soulevés par Ioannidis contre cet article (et également, séparément, contre l'aspect "pétition" de celui-ci), cité par Gelman.
amibe dit de réintégrer Monica

3
Ce n'est pas un nouveau concept cependant. La méta-analyse est chose courante depuis près de 50 ans et Cochrane fait des méta-analyses d’études médicales / de santé (où il est plus facile de normaliser les objectifs et les résultats) depuis 25 ans.
Graham

4
Fondamentalement, le problème consiste à essayer de réduire "l’incertitude" qui est un problème multidimensionnel à un seul chiffre.
MaxW

4
Fondamentalement, si les gens disaient "nous n’avons trouvé aucune preuve d’une association entre X et Y" au lieu de "X et Y ne sont pas liés" lorsque nous trouvons cet article n’existerait probablement pas. p>α
Firebug

Réponses:


65

Les trois premiers points, autant que je sache, sont une variation d'un seul argument.

Les scientifiques traitent souvent les mesures d'incertitude (par exemple, ) comme des distributions de probabilité ressemblant à ceci:12±1

distribution de probabilité uniforme

Quand en réalité, ils sont beaucoup plus susceptibles de ressembler à ceci : entrez la description de l'image ici

En tant qu'ancien chimiste, je peux confirmer que de nombreux scientifiques sans connaissances en mathématiques (principalement des chimistes et des biologistes non physiques) ne comprennent pas vraiment comment l'incertitude (ou l'erreur, comme ils l'appellent) est censée fonctionner. Ils se souviennent d'une période de physique de premier cycle où ils devaient peut-être les utiliser, voire même calculer une erreur composée à l'aide de plusieurs mesures différentes, mais ils ne les avaient jamais vraiment comprises . Moi aussi , je suis coupable de cela, et pris toutes les mesures devaient venir dans le intervalle. Ce n'est que récemment (et hors du milieu universitaire) que j'ai découvert que les mesures d'erreur se rapportaient généralement à un certain écart-type et non à une limite absolue.±

Donc, pour décomposer les points numérotés dans l'article:

  1. Des mesures en dehors de l'IC ont encore une chance de se produire, car la probabilité réelle (probablement gaussienne) est non nulle là-bas (ou n'importe où d'ailleurs, même si elles deviennent extrêmement faibles lorsque vous sortez très loin). Si les valeurs après le représentent bien un sd, il y a toujours 32% de chances qu'un point de données tombe en dehors d'elles.±

  2. La distribution n'est pas uniforme (sommet plat, comme dans le premier graphique), elle a atteint son maximum. Vous avez plus de chances d’obtenir une valeur au milieu que sur les bords. C'est comme si on lançait une série de dés plutôt qu'un seul.

  3. 95% est une limite arbitraire et coïncide presque exactement avec deux écarts-types.

  4. Ce point est davantage un commentaire sur l’honnêteté académique en général. Au cours de mon doctorat, je me suis rendu compte que la science n’est pas une force abstraite, mais les efforts cumulés de personnes qui tentent de faire de la science. Ce sont des gens qui essaient de découvrir de nouvelles choses sur l’univers, mais en même temps, ils essaient également de nourrir leurs enfants et de conserver leur emploi. Malheureusement, de nos jours, une forme de publication ou de péremption est en jeu. En réalité, les scientifiques dépendent de découvertes à la fois vraies et intéressantes , car des résultats inintéressants ne donnent pas lieu à des publications.

Les seuils arbitraires tels que peuvent souvent s'auto-entretenir, en particulier chez ceux qui ne comprennent pas parfaitement les statistiques et qui ont simplement besoin d'un tampon réussite / échec pour leurs résultats. En tant que tel, les gens parlent parfois à mi-plaisanterie de «relancer le test jusqu'à ce que vous obteniez ». Cela peut être très tentant, surtout si un doctorat / une bourse / un emploi compte sur le résultat, que ces résultats marginaux soient agités jusqu'à ce que le souhaité dans l'analyse.p<0.05p<0.05p=0.0498

De telles pratiques peuvent être préjudiciables à la science dans son ensemble, en particulier si elles sont pratiquées à grande échelle, le tout dans la recherche d’un nombre qui, aux yeux de la nature, n’a pas de sens. En réalité, cette partie exhorte les scientifiques à être honnêtes à propos de leurs données et de leur travail, même lorsque cette honnêteté leur est préjudiciable.


26
+1 pour "... publier ou périr est en jeu. En réalité, les scientifiques dépendent de découvertes à la fois vraies et intéressantes, car des résultats inintéressants ne donnent pas lieu à des publications." Il y a de cela quelques années, un article intéressant a publié un article intéressant sur la manière dont cette «publication ou périr» conduit à une erreur / un biais aggravant dans le monde universitaire: Pourquoi la plupart des résultats de recherche publiés sont-ils faux (Ioannidis, 2005)
J. Taylor,

4
Je ne suis pas d'accord avec "la véritable incertitude (probablement gaussienne) ..." - le gaussien est une autre simplification excessive. C'est un peu plus justifié que le modèle des limites strictes grâce au théorème de la limite centrale, mais la distribution réelle est généralement quelque chose de différent.
gauche vers

1
@leftaroundabout La distribution réelle est probablement encore différente, mais à moins que la valeur ne soit physiquement impossible, la probabilité est toujours mathématiquement non nulle.
gerrit

3
@leftaroundabout en disant que l'incertitude est probable que la gaussienne n'est pas en soi une simplification. Il décrit une distribution antérieure, qui est justifiée par le CLT comme étant la meilleure, en l'absence d'autres données à l'appui, mais en exprimant une incertitude quant à la distribution, il est reconnu que la distribution pourrait bien ne pas être gaussienne.
Le

7
@inisfree, vous vous trompez énormément. De nombreuses disciplines scientifiques (comme la chimie et la biologie, comme je l’ai dit plus tôt) utilisent des mathématiques presque nulles, à part l’arithmétique de base. Il existe par ailleurs des scientifiques brillants qui sont presque illettrés en mathématiques et j'en ai rencontré quelques-uns.
Ingolifs

19

Une grande partie de l'article et de la figure que vous incluez sont très simples:

L'absence de preuve d'un effet ne prouve pas qu'il n'existe pas.

Par exemple,

"Dans notre étude, les souris ayant reçu du cyanure ne sont pas mortes à des taux statistiquement significativement plus élevés" n'est pas une preuve de l'allégation "Le cyanure n'a pas d'effet sur la mort des souris".

Supposons que nous donnions une dose de cyanure à deux souris et que l’une d’elles meure. Dans le groupe de contrôle de deux souris, ni meurt. Étant donné que la taille de l'échantillon était si petite, ce résultat n'est pas statistiquement significatif ( ). Donc, cette expérience ne montre pas un effet statistiquement significatif du cyanure sur la durée de vie des souris. Faut-il en conclure que le cyanure n'a pas d'effet sur les souris? Évidemment pas.p>0.05

Mais c’est là l’erreur des auteurs, selon les scientifiques.

Par exemple, dans votre figure, la ligne rouge pourrait provenir d’une étude portant sur très peu de souris, tandis que la ligne bleue pourrait provenir de la même étude, mais sur de nombreuses souris.

Les auteurs suggèrent qu'au lieu d'utiliser des tailles d'effet et des valeurs p, les scientifiques décrivent plutôt l'éventail des possibilités plus ou moins compatibles avec leurs résultats. Dans notre expérience à deux souris, nous aurions dû écrire que nos découvertes sont compatibles avec le cyanure étant très toxique et avec lequel il n'est pas du tout toxique. Dans une expérience à 100 souris, nous pourrions trouver une plage d’intervalle de confiance de fatalité avec une estimation ponctuelle de[60%,70%]65%. Ensuite, nous devrions écrire que nos résultats seraient le plus compatibles avec l'hypothèse selon laquelle cette dose tue 65% des souris, mais nos résultats seraient également compatibles avec des pourcentages aussi faibles que 60 ou élevés, et nos résultats le seraient moins. avec une vérité en dehors de cette gamme. (Nous devrions également décrire les hypothèses statistiques que nous formulons pour calculer ces nombres.)


4
Je ne suis pas d'accord avec la déclaration générale selon laquelle "l'absence de preuve n'est pas une preuve d'absence". Les calculs de puissance vous permettent de déterminer la probabilité de considérer un effet d'une taille particulière comme significatif, en fonction d'une taille d'échantillon particulière. Les tailles d'effet importantes nécessitent moins de données pour être considérées comme significativement différentes de zéro, alors que les effets faibles nécessitent une taille d'échantillon plus grande. Si votre étude est correctement alimentée et que vous ne constatez toujours aucun effet significatif, vous pouvez raisonnablement en conclure que cet effet n'existe pas. Si vous avez suffisamment de données, la non-signification peut en effet n'indiquer aucun effet.
Nucléaire Wang

1
@NuclearWang True, mais uniquement si l'analyse de la puissance est effectuée à l'avance et si elle est faite avec les hypothèses correctes, puis les interprétations correctes (c'est-à-dire que votre puissance n'est pertinente que pour l' ampleur de la taille de l'effet que vous prédisez; "80% "puissance" ne signifie pas que vous avez une probabilité de 80% de détecter correctement un effet nul ). De plus, selon mon expérience, l'utilisation de «non significatif» pour signifier «pas d'effet» est souvent appliquée à des résultats secondaires ou à des événements rares, pour lesquels l'étude n'est (de manière appropriée) pas alimentée de toute façon. Enfin, la bêta est typiquement >> alpha.
Bryan Krause

9
@NuclearWang, je ne pense pas que quiconque soutienne que "l'absence de preuve n'est JAMAIS une preuve d'absence", je pense qu'ils soutiennent que cela ne devrait pas être automatiquement interprété comme tel, et que c'est là l'erreur qu'ils voient commettre des gens.
usul

C'est presque comme si les gens n'étaient pas formés aux tests d'équivalence ou quelque chose du genre .
Alexis

19

J'essaierai.

  1. L'intervalle de confiance (qu'ils renomment intervalle de compatibilité) indique les valeurs du paramètre les plus compatibles avec les données. Mais cela ne signifie pas que les valeurs en dehors de l'intervalle sont absolument incompatibles avec les données.
  2. Les valeurs proches du milieu de l'intervalle de confiance (compatibilité) sont plus compatibles avec les données que les valeurs proches des extrémités de l'intervalle.
  3. 95% est juste une convention. Vous pouvez calculer des intervalles de 90%, de 99% ou de%.
  4. Les intervalles de confiance / compatibilité ne sont utiles que si l'expérience a été effectuée correctement, si l'analyse a été effectuée selon un plan prédéfini et si les données sont conformes à l'hypothèse des méthodes d'analyse. Si vous avez des données mal analysées, l'intervalle de compatibilité n'est ni significatif ni utile.

10

Le grand XKCD a réalisé cette caricature il y a quelque temps, illustrant le problème. Si les résultats obtenus avec sont traités de manière simpliste comme prouvant une hypothèse - et trop souvent, ils le sont -, 1 hypothèse sur 20 ainsi prouvée sera en réalité fausse. De même, si est pris pour réfuter une hypothèse, 1 hypothèse vraie sur 20 sera rejetée à tort. Les valeurs P ne vous disent pas si une hypothèse est vraie ou fausse, elles vous disent si une hypothèse est probablement vraie ou fausse. Il semble que l'article référencé s'oppose à l'interprétation naïve par trop commune.P>0.05P < 0,05P<0.05


8
(-1) Les valeurs P ne vous indiquent pas si une hypothèse est probablement vraie ou fausse. Vous avez besoin d'une distribution préalable pour cela. Voir ce xkcd , par exemple. La confusion problématique qui mène à cette confusion est que si nous avons des prieurs similaires pour un grand nombre d'hypothèses, la valeur p sera alors proportionnelle à la probabilité qu'elle soit vraie ou fausse. Mais avant de voir des données, certaines hypothèses sont beaucoup plus probables que d'autres!
Cliff AB

3
Bien que cet effet ne soit pas à négliger, il est loin d’être un élément important de l’article cité.
RM

6

tl; dr - Il est fondamentalement impossible de prouver que les choses ne sont pas liées; les statistiques ne peuvent être utilisées que pour montrer quand les choses sont liées. En dépit de ce fait bien établi, les gens interprètent souvent mal un manque de signification statistique comme impliquant un manque de relation.


Une bonne méthode de chiffrement devrait générer un texte chiffré qui, autant qu'un attaquant puisse le dire, n’a aucune relation statistique avec le message protégé. Parce que si un attaquant peut déterminer une sorte de relation, ils peuvent obtenir des informations sur vos messages protégés simplement en regardant les cryptogrammes - ce qui est une mauvaise chose TM .

Cependant, le texte chiffré et son texte en clair correspondant à 100% se déterminent mutuellement. Donc, même si les meilleurs mathématiciens du monde ne peuvent trouver aucune relation significative, peu importe leurs efforts, nous savons toujours que cette relation n’est pas seulement là, mais qu’elle est tout à fait déterministe. Ce déterminisme peut exister même quand on sait qu'il est impossible de trouver une relation .

Malgré cela, nous avons toujours des gens qui vont faire des choses comme:

  1. Choisissez une relation qu'ils veulent " réfuter ".

  2. Faites des études là-dessus qui ne permettent pas de détecter la relation présumée.

  3. Signalez l’absence de relation statistiquement significative.

  4. Twist cela dans un manque de relation.

Cela conduit à toutes sortes d '" études scientifiques " que les médias rapporteront (faussement) comme réfutant l'existence de certaines relations.

Si vous souhaitez concevoir votre propre étude à ce sujet, vous pouvez procéder de différentes manières:

  1. Recherche paresseuse:
    Le moyen le plus simple, de loin, consiste simplement à être incroyablement paresseux à ce sujet. C'est juste comme à partir de ce chiffre lié à la question:
    .
    Vous pouvez facilement obtenir que en ayant simplement de petites tailles d’échantillons, ce qui permet beaucoup de bruit et diverses autres choses paresseuses. En fait, si vous êtes assez paresseux pour ne pas collecter toutes les données, alors vous avez déjà terminé!'Non-significant' study(high P value)"

  2. Analyse paresseuse:
    pour une raison quelconque, certaines personnes pensent qu'un coefficient de corrélation de Pearson de signifie " pas de corrélation ". Ce qui est vrai, dans un sens très limité. Mais voici quelques cas à observer: . En d’autres termes, il n’ya peut-être pas de relation " linéaire ", mais il peut évidemment y en avoir une plus complexe. Et il n'est pas nécessaire que ce soit un complexe de " cryptage ", mais plutôt " c'est en fait juste une ligne sinueuse " ou " il y a deux corrélations " ou autre chose.0

  3. Réponse paresseuse:
    Dans l'esprit de ce qui précède, je vais m'arrêter ici. Pour, tu sais, être paresseux!

Mais, sérieusement, l'article le résume bien dans:

Soyons clairs sur ce qui doit cesser: nous ne devrions jamais conclure qu'il n'y a pas de différence ou d'association simplement parce qu'une valeur P est supérieure à un seuil tel que 0,05 ou, de manière équivalente, car un intervalle de confiance inclut zéro.


+1 parce que ce que tu écris est à la fois vrai et provoquant. Cependant, à mon humble avis, vous pouvez prouver que deux quantités sont raisonnablement décorrélées sous certaines hypothèses. Vous devez d’abord bien sûr commencer par exemple en supposant une certaine distribution à leur sujet, mais cela peut être basé sur les lois de la physique ou des statistiques (par exemple, la vitesse des molécules d’un gaz dans un récipient devrait être gaussienne ou autre)
mardi

3
@ntg Oui, il est difficile de savoir comment formuler certaines de ces choses, alors j'ai oublié beaucoup de choses. Je veux dire, la vérité générale est que nous ne pouvons pas nier l'existence de certaines relations, même si nous pouvons généralement démontrer qu'une relation spécifique n'existe pas. En quelque sorte, nous ne pouvons pas établir que deux séries de données ne sont pas liées, mais nous pouvons établir qu'elles ne semblent pas être reliées de manière fiable par une simple fonction linéaire.
Nat

1
-1 "tl; dr- Il est fondamentalement impossible de prouver que les choses ne sont pas liées": les tests d'équivalence fournissent la preuve de l'absence d'effet dans une taille d'effet arbitraire.
Alexis

2
@ Alexis Je pense que vous comprenez mal les tests d'équivalence; vous pouvez utiliser le test d’équivalence pour démontrer l’absence d’une relation, par exemple une relation linéaire, mais pas pour prouver l’absence de relation.
Nat

1
@Alexis L'inférence statistique peut vous fournir autant de preuves de l'absence d'effet supérieur à une taille d'effet spécifique dans le contexte de certains modèles . Vous supposez peut-être que le modèle sera toujours connu?
Nat

4

Pour une introduction didactique au problème, Alex Reinhart a écrit un livre entièrement disponible en ligne et édité sur No Starch Press (avec plus de contenu): https://www.statisticsdonewrong.com

Il explique la racine du problème sans mathématiques sophistiquées et contient des chapitres spécifiques avec des exemples tirés du jeu de données simulé:

https://www.statisticsdonewrong.com/p-value.html

https://www.statisticsdonewrong.com/regression.html

Dans le deuxième lien, un exemple graphique illustre le problème de la valeur p. La valeur P est souvent utilisée comme un indicateur unique de la différence statistique entre les ensembles de données, mais elle n'est clairement pas suffisante en soi.

Modifier pour une réponse plus détaillée:

Dans de nombreux cas, les études visent à reproduire un type de données précis, qu'il s'agisse de mesures physiques (nombre de particules dans un accélérateur lors d'une expérience spécifique) ou d'indicateurs quantitatifs (nombre de patients développant des symptômes spécifiques lors de tests de dépistage). Dans l'un ou l'autre cas, de nombreux facteurs peuvent interférer avec le processus de mesure, comme une erreur humaine ou des variations dans les systèmes (personnes réagissant différemment au même médicament). C’est la raison pour laquelle les expériences sont souvent effectuées des centaines de fois, si possible, et les tests de dépistage des drogues sont effectués, idéalement, sur des cohortes de milliers de patients.

L'ensemble de données est ensuite réduit à ses valeurs les plus simples à l'aide de statistiques: moyennes, écarts-types, etc. Le problème que pose la comparaison des modèles par leur moyenne est que les valeurs mesurées ne sont que des indicateurs des valeurs vraies et qu’elles changent également sur le plan statistique en fonction du nombre et de la précision des mesures individuelles. Nous avons des moyens de bien deviner quelles mesures sont susceptibles d'être identiques et quelles mesures ne le sont pas, mais avec une certaine certitude. Le seuil habituel est de dire que si nous avons moins d'une chance sur vingt de nous tromper en disant que deux valeurs sont différentes, nous les considérons comme "statistiquement différentes" (c'est la signification de ), sinon nous ne concluons pas.P<0.05

Cela conduit aux conclusions étranges illustrées dans l'article de Nature où deux mêmes mesures donnent les mêmes valeurs moyennes mais les conclusions des chercheurs diffèrent en raison de la taille de l'échantillon. Ceci, ainsi que d’autres aspects du vocabulaire et des habitudes statistiques, devient de plus en plus important dans les sciences. Un autre aspect du problème est que les gens ont tendance à oublier qu’ils utilisent des outils statistiques et à conclure à l’effet sans vérifier correctement le pouvoir statistique de leurs échantillons.

Autre illustration, les sciences sociales et les sciences de la vie traversent actuellement une véritable crise de réplication du fait que beaucoup d'effets ont été pris pour acquis par des personnes qui n'avaient pas vérifié le pouvoir statistique des études célèbres (tandis que d'autres falsifiaient les données). mais c’est un autre problème).


3
Bien qu’il ne s’agisse pas simplement d’un lien, cette réponse présente toutes les caractéristiques essentielles d’une " réponse uniquement liée ". Pour améliorer cette réponse, veuillez incorporer les points clés dans la réponse elle-même. Idéalement, votre réponse devrait être utile, même si le contenu des liens disparaît.
RM

2
À propos des valeurs p et du sophisme du taux de base (mentionné dans votre lien), Veritasium a publié cette vidéo appelée le piège bayésien .
jjmontes

2
Désolé, je vais essayer d'améliorer et de développer la réponse dès que possible. Mon idée était aussi de fournir du matériel utile au lecteur curieux.
G.Clavier

1
@ G.Clavier et le novice décrit dans les statistiques et lecteur curieux l'apprécient!
Uhoh

1
@uhoh Heureux de le lire. :)
G.Clavier

4

Pour moi, la partie la plus importante était:

... [Nous] invitons instamment les auteurs à discuter de l'estimation ponctuelle, même lorsqu'ils ont une valeur P élevée ou d'un intervalle large, ainsi que des limites de cet intervalle.

En d’autres termes: accordez plus d’importance à la discussion des estimations (centre et intervalle de confiance) et moins à la "vérification des hypothèses nuls".

Comment cela fonctionne-t-il dans la pratique? De nombreuses recherches se résument à mesurer la taille des effets, par exemple "Nous avons mesuré un ratio de risque de 1,20, avec un IC à 95% compris entre 0,97 et 1,33". Ceci est un résumé approprié d'une étude. Vous pouvez immédiatement voir l'ampleur de l'effet le plus probable et l'incertitude de la mesure. En utilisant ce résumé, vous pouvez rapidement comparer cette étude à d’autres, et idéalement, vous pouvez combiner tous les résultats dans une moyenne pondérée.

Malheureusement, ces études sont souvent résumées comme suit: "Nous n'avons pas constaté d'augmentation significative du ratio de risque sur le plan statistique". Ceci est une conclusion valable de l'étude ci-dessus. Mais ce n’est pas un résumé approprié de l’étude, car il est difficile de comparer des études utilisant ce type de résumé. Vous ne savez pas quelle étude a eu la mesure la plus précise, et vous ne pouvez pas deviner ce que pourrait être le résultat d'une méta-étude. Et vous ne décelez pas immédiatement lorsque les études prétendent que "le rapport de risque non significatif augmente" en disposant d'intervalles de confiance tellement grands que vous pouvez y cacher un éléphant.


Cela dépend de l'hypothèse nulle. Par exemple, rejeter donne la preuve d'une absence d'effet plus grand qu'un arbitrairement petit . H0:|θ|ΔΔ
Alexis

1
Oui, mais pourquoi se donner la peine de discuter d'une telle hypothèse? Vous pouvez simplement indiquer la taille d'effet mesurée , puis discuter des ramifications meilleures / pires possibles. C’est comme cela que l’on fait en physique, par exemple lors de la mesure de la différence masse-charge entre proton et antiproton . Les auteurs auraient pu choisir de formuler une hypothèse nulle (peut-être, pour suivre votre exemple, affirmant que la différence absolue est supérieure à celle de certains ) et de la tester, mais cette discussion n'a que peu de valeur ajoutée. θ±δθΔ
Martin JH

3

Il est "significatif" que des statisticiens , pas seulement des scientifiques, se lèvent et s'opposent à l'utilisation impropre de la "signification" et des valeursLe dernier numéro de The American Statistician est entièrement consacré à ce sujet. Voir en particulier l'éditorial de Wasserman, Schirm et Lazar. P


Merci pour le lien! C'est une révélation; Je n'avais pas réalisé qu'il y avait tant de réflexion et de débats à ce sujet.
Uhoh

2

Il est un fait que pour plusieurs raisons, les valeurs p sont devenues un problème.

Cependant, malgré leurs faiblesses, ils présentent des avantages importants tels que la simplicité et la théorie intuitive. Par conséquent, bien que je sois globalement d’accord avec le commentaire de Nature , je pense qu’au lieu d’ abandonner complètement la signification statistique , il faut une solution plus équilibrée. Voici quelques options:

1. "Modification du seuil de valeur p par défaut pour la signification statistique de 0,05 à 0,005 pour les revendications de nouvelles découvertes". À mon avis, Benjamin et autres ont très bien traité les arguments les plus convaincants contre l’adoption d’un niveau de preuve plus élevé.

2. Adopter les valeurs p de deuxième génération . Celles-ci semblent constituer une solution raisonnable à la plupart des problèmes affectant les valeurs p classiques . Comme le disent Blume et al . , Les valeurs p de deuxième génération pourraient aider à "améliorer la rigueur, la reproductibilité et la transparence dans les analyses statistiques".

3. Redéfinir la valeur p en tant que "mesure quantitative de la certitude - un" indice de confiance "- qu'une relation observée, ou une affirmation, est vraie." Cela pourrait aider à faire en sorte que l’objectif de l’analyse ne soit plus significatif d’estimer correctement cette confiance.

Il est important de noter que «les résultats qui n'atteignent pas le seuil de signification statistique ou de « confiance » (quelle qu’elle soit) peuvent encore être importants et mériter d’être publiés dans des revues renommées s’ils abordent des questions de recherche importantes avec des méthodes rigoureuses».

Je pense que cela pourrait aider à atténuer l'obsession des principales revues pour l'obsession des p-valeurs , ce qui est à l'origine du mauvais usage des p-valeurs .


Merci pour votre réponse, cela est utile. Je vais passer du temps à lire Blume et al. sur les valeurs p de deuxième génération , il semble être assez lisible.
Uhoh

1
@uhoh, content que ma réponse soit utile à votre question.
Krantz

1

Une chose qui n'a pas été mentionnée est que l'erreur ou la signification sont des estimations statistiques et non des mesures physiques réelles: elles dépendent fortement des données dont vous disposez et de la façon dont vous les traitez. Vous ne pouvez fournir une valeur d'erreur et de signification précise que si vous avez mesuré tous les événements possibles. Ce n'est généralement pas le cas, loin de là!

Par conséquent, toute estimation d'erreur ou de signification, dans ce cas une valeur P donnée, est par définition inexacte et il ne faut pas se fier à elle pour décrire la recherche sous-jacente - sans parler des phénomènes! - avec précision. En fait, il ne faut pas faire confiance pour communiquer quoi que ce soit sur les résultats SANS savoir ce qui est représenté, comment l'erreur a été estimée et ce qui a été fait pour contrôler la qualité des données. Par exemple, un moyen de réduire l'erreur estimée consiste à supprimer les valeurs aberrantes. Si cette suppression est également effectuée de manière statistique, comment pouvez-vous savoir si les valeurs aberrantes sont de véritables erreurs plutôt que des mesures réelles improbables qui devraient être incluses dans l’erreur? Comment l'erreur réduite pourrait-elle améliorer la signification des résultats? Qu'en est-il des mesures erronées près des estimations? Ils améliorent L'erreur et peut avoir un impact sur la signification statistique, mais peut conduire à des conclusions erronées!

D'ailleurs, je fais de la modélisation physique et ai moi-même créé des modèles où l'erreur 3-sigma est complètement non physique. C'est-à-dire que statistiquement, il y a environ un événement sur mille (enfin ... plus souvent que cela, mais je m'éloigne du sujet) qui donnerait une valeur complètement ridicule. La magnitude d'une erreur d'intervalle de 3 dans mon champ équivaut à peu près à avoir la meilleure estimation possible de 1 cm qui s'avère être un mètre de temps en temps. Cependant, il s’agit bien d’un résultat accepté lorsque l’on fournit des intervalles statistiques +/- calculés à partir de données physiques et empiriques dans mon domaine. Certes, l’intervalle d’incertitude est respecté, mais la valeur de la meilleure estimation approximative est souvent plus utile même lorsque l’intervalle d’erreur nominal est plus grand.

En passant, jadis, j’étais personnellement responsable de l’un de ces cas exceptionnels. J'étais en train de calibrer un instrument quand un événement que nous étions supposés mesurer s'est produit. Hélas, ce point de données aurait été exactement l'un de ces 100 valeurs aberrantes, donc dans un sens, elles se produisent et sont incluses dans l'erreur de modélisation!


"Vous ne pouvez fournir une mesure précise que si vous avez mesuré tous les événements possibles." Hmm. Alors, la précision est sans espoir? Et aussi hors de propos? Veuillez développer la différence entre précision et biais. Les estimations inexactes sont-elles biaisées ou non biaisées? S'ils sont impartiaux, ne sont-ils pas un peu utiles? "Par exemple, un moyen de réduire les erreurs consiste à supprimer les valeurs aberrantes." Hmm. Cela réduira la variance de l'échantillon, mais "erreur"? "... souvent la valeur de la meilleure estimation approximative est un résultat plus utile même lorsque l'intervalle d'erreur nominal est plus grand" Je ne nie pas le fait qu'un bon précédent est meilleur qu'une mauvaise expérience.
Peter Léopold

Modifié le texte un peu en fonction de votre commentaire. Ce que je voulais dire, c’est que la mesure statistique de l’erreur est toujours une estimation, à moins que vous ne disposiez de tous les tests individuels possibles, pour ainsi dire, disponibles. Cela se produit rarement, sauf lors de l'interrogation d'un nombre défini de personnes (pas comme des échantillons d'une foule plus large ou d'une population plus large).
Geenimetsuri

1
Je suis un pratiquant qui utilise des statistiques plutôt qu'un statisticien. Je pense qu'un problème fondamental avec les valeurs de p est que beaucoup de personnes qui ne sont pas familières avec ce qu'elles sont confondent leur signification. Ainsi, on m'a demandé de déterminer quelles pentes sont importantes en utilisant des valeurs p, que ces pentes soient grandes ou non. Un problème similaire consiste à les utiliser pour déterminer l'impact relatif des variables (ce qui est essentiel pour moi, mais qui attire étonnamment peu d'attention dans la littérature sur la régression).
user54285
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.