Je m'offusque des deux idées suivantes:
Avec des échantillons de grande taille, les tests de signification sautent sur des écarts minimes et sans importance par rapport à l'hypothèse nulle.
Presque aucune hypothèse nulle n'est vraie dans le monde réel, il est donc absurde et bizarre de faire un test de signification.
C’est un tel débat entre les hommes et les femmes sur les valeurs p. Le problème fondamental qui a motivé le développement des statistiques provient du fait de voir une tendance et de vouloir savoir si ce que nous voyons est par hasard ou s'il est représentatif d'une tendance systématique.
Dans cet esprit, il est vrai que les statisticiens ne croient généralement pas qu’une hypothèse nulle est vraie (c’est-à-dire , où est la différence moyenne entre certaines mesures entre deux groupes). Cependant, avec les tests bilatéraux, nous ne savons pas quelle hypothèse alternative est vraie! Dans un test bilatéral, nous pouvons vouloir dire que nous sommes sûrs à 100% que avant de voir les données. Mais nous ne savons pas si ou . Donc, si nous courons notre expérience et concluons que , nous avons rejeté (comme dirait Matloff; conclusion inutile) mais, ce qui est plus important, nous avons également rejetéμ d μ d ≠ 0 μ d > 0 μ d < 0 μ d > 0 μ d = 0 μ d < 0Ho:μd=0μdμd≠0μd>0μd<0μd>0μd=0μd<0 (je dis; conclusion utile). Comme @amoeba l'a fait remarquer, cela s'applique également aux tests unilatéraux susceptibles de l'être, par exemple pour vérifier si un médicament a un effet positif.
C'est vrai que cela ne vous dit pas l'ampleur de l'effet. Mais cela vous indique la direction de l'effet. Alors ne mettons pas la charrue avant les bœufs; avant de commencer à tirer des conclusions sur l’ampleur de l’effet, je veux être certain que la direction de l’effet est correcte!
De même, l'argument selon lequel "les valeurs p rebondissent sur des effets minimes et sans importance" me semble tout à fait imparfait. Si vous pensez à une p-valeur en tant que mesure de la quantité des données prend en charge la direction de votre conclusion, alors bien sûr que vous voulez pour ramasser les petits effets lorsque la taille de l' échantillon est assez grand. Dire que cela signifie qu'elles ne sont pas utiles m'est très étrange: ces domaines de recherche qui ont souffert des valeurs p sont-ils les mêmes que ceux qui ont tellement de données qu'ils n'ont pas besoin d'évaluer la fiabilité de leurs estimations? De même, si vos problèmes sont vraiment que les valeurs p "sautent sur des tailles d’effet minuscules", alors vous pouvez simplement tester les hypothèses etH 2 : μ d < - 1H1:μd>1H2:μd<−1(en supposant que vous pensez que 1 est la taille minimale de l’effet important). Cela se fait souvent lors d'essais cliniques.
Pour illustrer davantage ceci, supposons que nous examinions simplement les intervalles de confiance et les valeurs p ignorées. Quelle est la première chose à vérifier dans l’intervalle de confiance? Si l'effet était strictement positif (ou négatif) avant de prendre les résultats trop au sérieux. En tant que tel, même sans les valeurs p, nous effectuerions des tests d'hypothèses de manière informelle.
Enfin, en ce qui concerne la demande de OP / Matloff, "Donnez un argument convaincant selon lequel les valeurs p sont nettement meilleures", je pense que la question est un peu délicate. Je dis cela parce que, selon votre point de vue, cela se répond automatiquement ("donnez-moi un exemple concret où il est préférable de tester une hypothèse que de ne pas les tester"). Cependant, un cas particulier que je pense presque indéniable est celui des données RNAseq. Dans ce cas, nous examinons généralement le niveau d'expression de l'ARN dans deux groupes différents (c.-à-d. Malades, contrôles) et essayons de trouver des gènes qui sont exprimés de manière différentielle dans les deux groupes. Dans ce cas, la taille de l'effet en soi n'a même pas vraiment de sens. En effet, les niveaux d'expression de différents gènes varient tellement que pour certains gènes, une expression 2x plus élevée ne signifie rien, tandis que sur d'autres gènes étroitement régulés, une multiplication par 1,2 plus élevée est fatale. Ainsi, l'ampleur réelle de la taille de l'effet est en réalité quelque peu inintéressante lors de la première comparaison des groupes. Mais toivraiment, vraiment envie de savoir si l'expression du gène change entre les groupes et la direction du changement! En outre, il est beaucoup plus difficile de résoudre les problèmes de comparaisons multiples (pour lesquelles vous pouvez en faire 20 000 en une seule analyse) avec des intervalles de confiance qu'avec des valeurs p.