En réponse à un nombre croissant de statisticiens et de chercheurs qui critiquent l'utilité des tests d'hypothèse nulle (NHT) pour la science comme un effort cumulatif, le groupe de travail sur l'inférence statistique de l'American Psychological Association a évité une interdiction pure et simple du NHT, mais a plutôt suggéré que les chercheurs rapportent les tailles d'effet en plus des valeurs de p dérivées du NHT.
Cependant, les tailles d'effet ne sont pas facilement cumulables entre les études. Les approches méta-analytiques peuvent accumuler des distributions de tailles d'effet, mais les tailles d'effet sont généralement calculées comme un rapport entre l'amplitude de l'effet brut et le "bruit" inexpliqué dans les données d'une expérience donnée, ce qui signifie que la distribution des tailles d'effet n'est pas affectée seulement par le variabilité de l'ampleur brute de l'effet d'une étude à l'autre, mais aussi variabilité de la manifestation du bruit d'une étude à l'autre.
En revanche, une autre mesure de la force de l'effet, les rapports de vraisemblance, permet à la fois une interprétation intuitive étude par étude et peut être facilement agrégée entre les études pour une méta-analyse. Dans chaque étude, la probabilité représente le poids de la preuve pour un modèle contenant un effet donné par rapport à un modèle qui ne contient pas l'effet, et pourrait généralement être rapporté comme, par exemple, «Calcul d'un rapport de vraisemblance pour l'effet de X a révélé 8 fois plus de preuves de l'effet que de sa valeur nulle respective ". De plus, le rapport de vraisemblance permet également une représentation intuitive de la force des résultats nuls dans la mesure où les rapports de vraisemblance inférieurs à 1 représentent des scénarios où le nul est favorisé et en prenant l'inverse de cette valeur représente le poids de la preuve du nul par rapport à l'effet. Notamment, le rapport de vraisemblance est représenté mathématiquement comme le rapport des variances inexpliquées des deux modèles, qui ne diffèrent que par la variance expliquée par l'effet et ne constituent donc pas un écart conceptuel énorme par rapport à la taille de l'effet. D'un autre côté, le calcul d'un rapport de vraisemblance méta-analytique, représentant le poids de la preuve d'un effet entre les études, consiste simplement à prendre le produit des rapports de vraisemblance entre les études.
Ainsi, je soutiens que pour la science qui cherche à établir le degré de preuve brute en faveur d'un effet / modèle, les rapports de vraisemblance sont la voie à suivre.
Il existe des cas plus nuancés où les modèles ne peuvent être différenciés que par la taille spécifique d'un effet, auquel cas une sorte de représentation de l'intervalle sur lequel nous pensons que les données sont cohérentes avec les valeurs des paramètres de l'effet pourrait être préférée. En effet, le groupe de travail de l'APA recommande également de rendre compte des intervalles de confiance, qui peuvent être utilisés à cette fin, mais je soupçonne qu'il s'agit également d'une approche irréfléchie.
Les intervalles de confiance sont lamentablement souvent mal interprétés ( par les étudiants et les chercheurs ). Je crains également que leur capacité d'utilisation dans le NHT (en évaluant l'inclusion de zéro dans l'IC) ne servira qu'à retarder encore plus l'extinction du NHT en tant que pratique inférentielle.
Au lieu de cela, lorsque les théories ne sont différenciables que par la taille des effets, je suggère que l'approche bayésienne serait plus appropriée, où la distribution antérieure de chaque effet est définie séparément par chaque modèle, et les distributions postérieures résultantes sont comparées.
Cette approche, remplaçant les valeurs de p, les tailles d'effet et les intervalles de confiance par des rapports de vraisemblance et, si nécessaire, une comparaison du modèle bayésien, semble-t-elle suffisante? Manque-t-il une caractéristique inférentielle nécessaire que les alternatives ici dénigrées fournissent?