Quelle est la distinction entre un «test statistique d'hypothèse nulle» et tout autre test?

Un récent sujet brûlant de discussion concerne une revue interdisant l'utilisation de "procédures de test statistique d'hypothèse nulle (NHSTP)" dans les articles soumis à la revue. Je vois ce terme utilisé par certains écrivains, mais je ne comprends pas quelle distinction ils essaient de faire. Un NHSTP est-il quelque chose de différent d'un "test d'hypothèse" ou d'un "test de signification"?

hypothesis-testing statistical-significance terminology

— Russ Lenth
source

Un acronyme qui est un peu plus souvent utilisé est NHST (sans P à la fin). Les deux acronymes semblent être des termes péjoratifs utilisés par les écrivains qui le détestent (dans le contexte de telles polémiques). Vous pouvez jeter un coup d'œil à la recherche Google pour NHST + null (1670 résultats, contre seulement 145 pour NHSTP + null) - il s'agit de problèmes et de problèmes avec. Un autre terme péjoratif apparenté est «rituel nul». Tout cela signifie ce que vous pensez que cela signifie, mais prononcé avec un fort dégoût!

— amoeba

Il existe des tests qui sont théoriquement très différents des NHST les plus habituels, tels que les tests d'équivalence - bien que mécaniquement (mais sans surprise) ils utilisent un cadre étroitement lié. Cependant, j'imagine que le rédacteur en chef du journal en question s'opposerait probablement à ceux-là aussi.

— Glen_b -Reinstate Monica

Connexes (mais pas en double): Quelle est la différence entre «test d'hypothèse» et «test de signification»? De plus, je dois souligner que les rédacteurs de cette revue n'essaient clairement pas de faire de distinction entre tout cela! Ils interdisent toute sorte d'hypothèse / signification / quels que soient les tests, que ce soit Fisher, Neyman-Pearson ou hybride. La distinction n'est faite que dans le contexte de la guerre sainte de Fisher contre Neyman-Pearson (contre hybride), ce qui n'était pas l'objet de cette interdiction de journal en particulier.

— amoeba

Donc, @Livid, vous dites que «NHST» fait référence à la façon dont les tests statistiques sont généralement utilisés dans la pratique, par opposition aux paradigmes Fisher et NP? Je suppose que, si à son tour cela implique un tournage routinier et irréfléchi de la manivelle, je conviens que c'est un terme péjoratif.

— Russ Lenth

@rvl Voici l'article (+ commentaire) auquel je pensais plus tôt: Précis d'importance statistique: justification, validité et utilité. Siu L. Chow. SCIENCES DU COMPORTEMENT ET DU CERVEAU (1998) 21, 169-239

— Livid

Contexte: L'éditorial en question est celui de Basic and Applied Social Psychology , une revue avec un facteur d'impact 2015 de 1,168, c'est-à-dire peu citable.

Re: Question OP , c.-à-d., Un NHSTP est-il quelque chose de différent d'un «test d'hypothèse» ou d'un «test de signification»? Les déclarations éditoriales applicables sont

1) "...the null hypothesis significance testing procedure (NHSTP)  is invalid..." [Sic, with alpha = 0.05]
2) "...authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on)."
3) "...confidence intervals [Sic, 95%] also are banned from BASP."
4) "...Bayesian procedures are neither required nor banned from BASP." [Sic, depends on which ones, they are either banned or not.]
5) "Are any inferential statistical procedures required?...No..."

La motivation offerte pour cela est en partie "... la $p<.05$ la barre est trop facile à passer et sert parfois d'excuse à une recherche de moindre qualité. Nous espérons et prévoyons que l'interdiction du NHSTP aura pour effet d'augmenter la qualité des manuscrits soumis en libérant les auteurs de la structure abrégée de la pensée du NHSTP, éliminant ainsi un obstacle important à la pensée créative. "

Réponse à OP: Ces éditeurs prétendent probablement qu'un test de signification est souvent un test d'hypothèse incorrect. Par exemple, ils déclarent que "... des propositions bayésiennes qui contournent au moins quelque peu l' hypothèse laplacienne [Sic, je ne sais rien a priori ] ... [de telle sorte] qu'il pourrait même y avoir des cas où il y a de fortes raisons de supposer que la les chiffres sont vraiment là ... "Cela se rapporte en partie à l' argument de Fisher contre Neyman et Pearson comme souligné ci-dessus par @Livid et pour lequel l'éditorial serait du côté de Fisher.

Discussion: Je crois fermement à l'humilité intellectuelle en tant que principe fondamental et indispensable de la méthode scientifique. Si moi, en tant que chercheur, je ne suis pas autorisé à partir d'une prémisse initiale sans hypothèse dans laquelle toutes les théories antérieures sont méconnues, alors je perdrai toute ma capacité à examiner les données avec un esprit créatif et ouvert. La prémisse que tout traitement numérique doit être une vérité absolue est une exposition de la cupidité qui est sublime. La seule vérité, ce sont les données, et je paraphraserais humblement Boxen déclarant que tous les modèles sont faux, en particulier et très certainement ceux qui supposent que toute vérité provient de tout ce qui n'est pas identique aux données elles-mêmes. Cela ne signifie pas que je doive choisir entre Fisher et Neyman / Pearson, plutôt que je ne crois fermement ni aux prémisses prises isolément, mais plutôt à examiner les choses de manière exhaustive jusqu'à ce que mes hypothèses soient soutenues et / ou rejetées pour l'auto-cohérence de l'ensemble. Seule la cohérence de soi peut être utilisée comme critère, car aucune analyse ne peut révéler une vérité absolue.

Ma façon de faire n'est pas pour tout le monde. Beaucoup préfèrent planifier les tests dans une conception d'expérience contrôlée rigide que j'appellerais «descendante». Cependant, les expériences contrôlées sont inefficaces pour l'exploration de données, la reconnaissance de formes et la génération d'hypothèses. Ils sont utiles pour tester des questions étroites, et c'est alors que la controverse sur le NHSTP peut surgir. Sans preuves à l'appui, par exemple, toute une structure d'auto-cohérence sur laquelle s'appuyer, tout test est sujet à critique. Cela pourrait être considéré comme Bonferroni à l'envers; si plusieurs tests conduisent à un ensemble auto-cohérent incontournable, les chances que l'ensemble se produise uniquement par hasard sont diminuées. Dans la planification d'expériences de psychologie, le non-sens de ne pas utiliser $p<0.05$ est dû à ne pas tester également toutes les implications d'un résultat de test particulier, et si l'on ne peut tolérer une erreur de type I de $0.05$ parce que la conception expérimentale est si rigide, restreinte et étroite, alors utilisez $0.001$ . Cependant, interdire une méthode statistique particulière parce qu'elle est utilisée sans réfléchir et que le travail insensé réussit lorsqu'il est examiné signifie simplement que les éditeurs n'identifient pas le travail de faible qualité avant d'accepter de le réviser, et n'abordent pas les examinateurs qualifiés. On ne peut certainement pas établir une condamnation raisonnable sur la base d'une seule preuve circonstancielle. Un ensemble de preuves circonstancielles mène plutôt à une condamnation raisonnable. L'élimination d'une catégorie entière de preuves parce qu'elles sont circonstancielles n'améliorera pas le contenu d'une revue.

— Carl
source

"... en tant que locataire fondamental et indispensable de la méthode scientifique ..." - Je m'attends à ce que vous vouliez dire principe plutôt que locataire .

— Glen_b -Reinstate Monica

@Glen_b Je tiens à vous remercier . J'aurais dû mieux savoir, mais attendez-vous à ce que tout soit faux de toute façon. Ergo , pour le reste, des pensées?

— Carl