Je lisais les modèles linéaires de manuels de Faraway avec R (1ère édition) le week-end dernier. Loin avait un chapitre intitulé "Stratégie statistique et incertitude du modèle". Il a décrit (page 158) qu'il avait généré artificiellement des données à l'aide d'un modèle très compliqué, puis il a demandé à ses élèves de modéliser les données et de comparer les résultats prévus des élèves par rapport à résultats de lecture. Malheureusement, la plupart des étudiants ont sur-ajusté les données des tests et ont donné des valeurs prédites totalement différentes. Pour expliquer ce phénomène, il m'a écrit quelque chose de très impressionnant:
"La raison pour laquelle les modèles étaient si différents était que les étudiants appliquaient les différentes méthodes dans des ordres différents. Certains ont fait une sélection de variables avant la transformation et d'autres, l'inverse. Certains ont répété une méthode après que le modèle a été changé et d'autres non. J'ai passé en revue les stratégies que plusieurs élèves ont utilisé et n'ont rien trouvé de mal à ce qu'ils ont fait. Un élève a fait une erreur dans le calcul de ses valeurs prédites, mais il n'y avait rien de mal à l'évidence dans le reste. La performance de ce devoir n'a pas montré toute relation avec cela dans les examens. "
J'ai appris que la précision de la prédiction du modèle est le «critère d'or» pour sélectionner les meilleures performances du modèle. Si je ne me trompe pas, c'est aussi la méthode populaire utilisée dans les compétitions Kaggle. Mais ici, Faraway a observé quelque chose d'une nature différente, que les performances de prédiction du modèle ne pouvaient rien avoir à faireavec la capacité du statisticien impliqué. En d'autres termes, si nous pouvons construire le meilleur modèle en termes de pouvoir prédictif n'est pas vraiment déterminé par notre expérience. Au lieu de cela, il est déterminé par une énorme «incertitude du modèle» (chance aveugle?). Ma question est: est-ce vrai aussi dans l'analyse des données de la vie réelle? Ou étais-je confondu avec quelque chose de très basique? Car si cela est vrai, alors l'implication dans l'analyse de données réelles est immense: sans connaître le "vrai modèle" derrière les données, il n'y a pas de différence essentielle entre le travail effectué par des statisticiens expérimentés / inexpérimentés: les deux ne sont que des suppositions sauvages devant les données de formation disponibles.