Vous ne pouvez pas avoir de règle d'arrêt sans avoir une idée de votre distribution et de la taille de votre effet - que vous ne connaissez pas a priori.
De plus, oui, nous devons nous concentrer sur la taille de l'effet - et il n'a jamais été considéré comme correct de ne considérer que les valeurs p, et nous ne devrions certainement pas montrer des tableaux ou des graphiques qui montrent des valeurs p ou des valeurs F plutôt que la taille de l'effet.
Il y a des problèmes avec les tests d'inférence d'hypothèses statistiques traditionnels (que Cohen dit être dignes de son acronyme, et Fisher et Pearson se retourneraient tous les deux dans les tombes s'ils voyaient tout ce qui se fait en leurs noms violemment opposés aujourd'hui).
Pour déterminer N, vous devez avoir déjà déterminé une importance cible et un seuil de puissance, ainsi que faire beaucoup d'hypothèses sur la distribution, et en particulier, vous devez également avoir déterminé la taille de l'effet que vous souhaitez établir. L'indolérance a tout à fait raison de dire que cela devrait être le point de départ - quelle taille d'effet minimale serait rentable!
Les "nouvelles statistiques" préconisent de montrer les tailles d'effet (comme différence appariée le cas échéant), ainsi que les écarts-types ou variances associés (parce que nous devons comprendre la distribution), et les écarts-types ou intervalles de confiance (mais ce dernier est déjà verrouillage d'une valeur de p et une décision quant à savoir si vous prévoyez une direction ou un pari à sens unique). Mais définir un effet minimum du signe spécifié avec une prédiction scientifique, cela est clair - bien que le défaut pré-scientifique soit de faire des essais et des erreurs et de simplement rechercher les différences. Mais encore une fois, vous avez fait des hypothèses sur la normalité si vous procédez de cette façon.
Une autre approche consiste à utiliser les boîtes à moustaches comme approche non paramétrique, mais les conventions concernant les moustaches et les valeurs aberrantes varient considérablement et même elles-mêmes trouvent leur origine dans des hypothèses de distribution.
Le problème d'arrêt n'est en effet pas un problème de chercheur individuel fixant ou non N, mais que nous avons toute une communauté de milliers de chercheurs, où 1000 est bien plus que 1 / alpha pour le niveau traditionnel de 0,05. La réponse est actuellement proposée pour fournir les statistiques résumées (moyenne, stddev, stderr - ou "versions non paramétriques correspondantes - médiane, etc. comme pour le boxplot) pour faciliter la méta-analyse et présenter les résultats combinés de toutes les expériences, qu'elles se produisent avoir atteint ou non un niveau alpha particulier.
Le problème des tests multiples, qui est tout aussi difficile à résoudre et où les expériences sont maintenues trop simplistes au nom de la préservation du pouvoir, est étroitement lié au problème des tests multiples, tandis que des méthodologies trop complexes sont proposées pour analyser les résultats.
Je ne pense pas qu'il puisse y avoir un chapitre de livre de texte traitant définitivement de cela, car nous avons encore peu d'idée de ce que nous faisons ...
Pour le moment, la meilleure approche est probablement de continuer à utiliser les statistiques traditionnelles les plus appropriées au problème, combinées à l'affichage des statistiques récapitulatives - l'effet et l'erreur standard et N étant les plus importants. L'utilisation d'intervalles de confiance est fondamentalement équivalente au test T correspondant, mais permet de comparer les nouveaux résultats aux résultats publiés de manière plus significative, ainsi que de permettre une éthique encourageant la reproductibilité et la publication d'expériences reproduites et de méta-analyses.
En termes d'approches théoriques de l'information ou bayésiennes, ils utilisent différents outils et font des hypothèses différentes, mais n'ont toujours pas toutes les réponses non plus, et en fin de compte sont confrontés aux mêmes problèmes, ou pire, parce que l'inférence bayésienne recule de l'élaboration définitive. répondre et apporte simplement des preuves a priori relatif supposé ou absent.
À la fin, l'apprentissage automatique a également des résultats dont il doit tenir compte pour la signification - souvent avec des CI ou des tests T, souvent avec des graphiques, espérons-le, plutôt que de simplement comparer, et d'utiliser des versions correctement compensées lorsque les distributions ne correspondent pas. Il a également ses controverses sur le bootstrap et la validation croisée, le biais et la variance. Pire encore, il a la propension à générer et à tester des myriades de modèles alternatifs simplement en paramétrant de manière approfondie tous les algorithmes dans l'une des nombreuses boîtes à outils, appliqués aux ensembles de données soigneusement archivés pour permettre des tests multiples effrénés. Pire encore, il est encore dans les âges sombres en utilisant la précision, ou pire encore la mesure F, pour l'évaluation - plutôt que des méthodes correctes au hasard.
J'ai lu des dizaines d'articles sur ces questions, mais je n'ai rien trouvé de totalement convaincant - à l'exception des articles d'enquêtes négatives ou de méta-analyse qui semblent indiquer que la plupart des chercheurs ne traitent pas et n'interprètent pas correctement les statistiques par rapport à toute "norme". ", ancien ou nouveau. Puissance, tests multiples, dimensionnement et arrêt précoce, interprétation des erreurs standard et des intervalles de confiance, ... ce ne sont que quelques-uns des problèmes.
S'il vous plaît, abattez-moi - je voudrais me tromper! À mon avis, il y a beaucoup d'eau de bain, mais nous n'avons pas encore trouvé le bébé! À ce stade, aucune des vues extrêmes ou des approches de marque ne semble prometteuse comme étant la réponse, et ceux qui veulent jeter tout le reste ont probablement perdu le bébé.