En bout de ligne , plus j'en apprends sur les statistiques, moins je me fie aux articles publiés dans mon domaine; Je crois simplement que les chercheurs ne font pas assez bien leurs statistiques.
Je suis un profane, pour ainsi dire. J'ai une formation en biologie mais je n'ai aucune formation formelle en statistique ou en mathématiques. J'apprécie R et fais souvent un effort pour lire (et comprendre ...) certains des fondements théoriques des méthodes que j'applique lors de mes recherches. Cela ne me surprendrait pas si la majorité des personnes qui effectuent des analyses aujourd'hui ne sont pas formellement formées. J'ai publié environ 20 articles originaux, dont certains ont été acceptés par des revues reconnues et des statisticiens ont souvent participé au processus de révision. Mes analyses incluent généralement l'analyse de survie, la régression linéaire, la régression logistique et les modèles mixtes. Jamais un critique n’a posé de questions sur les hypothèses, l’adéquation ou l’évaluation du modèle.
Ainsi, je ne me suis jamais vraiment préoccupé des hypothèses, de l’adéquation et de l’évaluation des modèles. Je commence par une hypothèse, exécute la régression puis présente les résultats. Dans certains cas, j'ai fait un effort pour évaluer ces choses, mais je me suis toujours retrouvé avec " bien, cela ne remplissait pas toutes les hypothèses, mais je me fie aux résultats (" connaissance de la matière ") et ils sont plausibles, donc ça va. " quand ils consultaient un statisticien, ils semblaient toujours être d'accord.
Maintenant, j'ai parlé à d'autres statisticiens et non statisticiens (chimistes, médecins et biologistes) qui effectuent eux-mêmes des analyses; il semble que les gens ne se préoccupent pas vraiment de toutes ces hypothèses et évaluations formelles. Mais ici, sur CV, il y a une abondance de personnes qui se posent des questions sur les résidus, l'ajustement du modèle, les moyens de l'évaluer, les valeurs propres, les vecteurs, etc. Permettez-moi de le dire ainsi, lorsque lme4 met en garde sur de grandes valeurs propres, je doute vraiment que beaucoup de ses utilisateurs se soucient de résoudre ce problème ...
Vaut-il l'effort supplémentaire? N'est-il pas probable que la majorité de tous les résultats publiés ne respectent pas ces hypothèses et ne les ont peut-être même pas évaluées? Il s’agit probablement d’un problème croissant, car les bases de données grossissent de jour en jour et il est admis que plus les données sont volumineuses, moins les hypothèses et les évaluations sont importantes.
Je peux me tromper, mais c’est ainsi que j’ai perçu cela.
Mise à jour: Citation empruntée à StasK (ci-dessous): http://www.nature.com/news/science-joins-push-to-screen-statistics-in-papers-1.15509