Il s'agit d'une question de discussion sur l'intersection de la statistique et d'autres sciences. Je suis souvent confronté au même problème: les chercheurs dans mon domaine ont tendance à dire qu'il n'y a pas d'effet lorsque la valeur p n'est pas inférieure au niveau de signification. Au début, j'ai souvent répondu que ce n'est pas ainsi que fonctionne le test d'hypothèse. Étant donné la fréquence à laquelle cette question se pose, j'aimerais discuter de cette question avec des statisticiens plus expérimentés.
Prenons un article récent dans une revue scientifique du «meilleur groupe d'édition» Nature Communications Biology (il existe plusieurs exemples, mais concentrons-nous sur un)
Les chercheurs interprètent un résultat non statistiquement significatif de la manière suivante:
Ainsi, la restriction calorique chronique modérée peut prolonger la durée de vie et améliorer la santé d'un primate, mais elle affecte l'intégrité de la matière grise du cerveau sans affecter les performances cognitives .
Preuve:
Cependant, les performances dans la tâche du labyrinthe de Barnes n'étaient pas différentes entre les animaux témoins et les animaux hypocaloriques (LME: F = 0,05, p = 0,82; Fig. 2a). De même, la tâche d'alternance spontanée n'a révélé aucune différence entre les animaux témoins et les animaux hypocaloriques (LME: F = 1,63, p = 0,22; figure 2b).
Les auteurs suggèrent également l'explication de l'absence de l'effet - mais le point clé n'est pas l'explication mais la revendication elle-même. Les tracés fournis semblent pour moi "sensiblement différents" (figure 2).
De plus, les auteurs ignorent les connaissances antérieures:
des effets délétères de la restriction calorique sur les performances cognitives ont été signalés chez le rat et pour les fonctions cérébrales et émotionnelles chez l'homme
Je peux comprendre la même affirmation pour les tailles d'échantillon énormes (pas d'effet = pas d'effet pratiquement significatif là-bas), mais dans des situations particulières, des tests complexes ont été utilisés et il n'est pas évident pour moi comment effectuer des calculs de puissance.
Des questions:
Ai-je oublié des détails qui rendent leurs conclusions valables?
Compte tenu de la nécessité de rapporter des résultats négatifs en science, comment prouver que ce n'est pas "l'absence de résultat" (que nous avons avec ), mais "un résultat négatif (par exemple, il n'y a pas de différence entre les groupes)" en utilisant statistiques? Je comprends que pour des tailles d'échantillon énormes, même de petits écarts par rapport au rejet de cause nulle, mais supposons que nous avons des données idéales et que nous devons encore prouver que la valeur nulle est pratiquement vraie.
Les statisticiens devraient-ils toujours insister sur des conclusions mathématiquement correctes telles que "ayant ce pouvoir, nous n'avons pas pu détecter d'effet de taille significative"? Les chercheurs d'autres domaines détestent fortement ces formulations de résultats négatifs.
Je serais heureux d'entendre toute réflexion sur le problème et j'ai lu et compris les questions connexes sur ce site Web. Il y a une réponse claire aux questions 2) -3) du point de vue statistique, mais j'aimerais comprendre comment répondre à ces questions en cas de dialogue interdisciplinaire.
UPD: Je pense qu'un bon exemple de résultat négatif est la 1ère étape des essais médicaux, la sécurité. Quand les scientifiques peuvent décider que le médicament est sûr? Je suppose qu'ils comparent deux groupes et font des statistiques sur ces données. Existe-t-il un moyen de dire que ce médicament est sûr? Cochrane utilise avec précision "aucun effet secondaire n'a été trouvé", mais les médecins disent que ce médicament est sûr. Lorsque l'équilibre entre l'exactitude et la simplicité de la description est atteint et que l'on peut dire "il n'y a aucune conséquence pour la santé"?