La prédiction est-elle le «critère d'or» pour juger de la capacité des statisticiens?

Je lisais les modèles linéaires de manuels de Faraway avec R (1ère édition) le week-end dernier. Loin avait un chapitre intitulé "Stratégie statistique et incertitude du modèle". Il a décrit (page 158) qu'il avait généré artificiellement des données à l'aide d'un modèle très compliqué, puis il a demandé à ses élèves de modéliser les données et de comparer les résultats prévus des élèves par rapport à résultats de lecture. Malheureusement, la plupart des étudiants ont sur-ajusté les données des tests et ont donné des valeurs prédites totalement différentes. Pour expliquer ce phénomène, il m'a écrit quelque chose de très impressionnant:

"La raison pour laquelle les modèles étaient si différents était que les étudiants appliquaient les différentes méthodes dans des ordres différents. Certains ont fait une sélection de variables avant la transformation et d'autres, l'inverse. Certains ont répété une méthode après que le modèle a été changé et d'autres non. J'ai passé en revue les stratégies que plusieurs élèves ont utilisé et n'ont rien trouvé de mal à ce qu'ils ont fait. Un élève a fait une erreur dans le calcul de ses valeurs prédites, mais il n'y avait rien de mal à l'évidence dans le reste. La performance de ce devoir n'a pas montré toute relation avec cela dans les examens. "

J'ai appris que la précision de la prédiction du modèle est le «critère d'or» pour sélectionner les meilleures performances du modèle. Si je ne me trompe pas, c'est aussi la méthode populaire utilisée dans les compétitions Kaggle. Mais ici, Faraway a observé quelque chose d'une nature différente, que les performances de prédiction du modèle ne pouvaient rien avoir à faireavec la capacité du statisticien impliqué. En d'autres termes, si nous pouvons construire le meilleur modèle en termes de pouvoir prédictif n'est pas vraiment déterminé par notre expérience. Au lieu de cela, il est déterminé par une énorme «incertitude du modèle» (chance aveugle?). Ma question est: est-ce vrai aussi dans l'analyse des données de la vie réelle? Ou étais-je confondu avec quelque chose de très basique? Car si cela est vrai, alors l'implication dans l'analyse de données réelles est immense: sans connaître le "vrai modèle" derrière les données, il n'y a pas de différence essentielle entre le travail effectué par des statisticiens expérimentés / inexpérimentés: les deux ne sont que des suppositions sauvages devant les données de formation disponibles.

predictive-models modeling interpretation

— Bombyx mori
source

+1 belle question. Pour offrir un autre angle, disons que l'un des analystes connaît le vrai mode - alors ses prédictions peuvent aussi être mauvaises! Donc, même en connaissant le vrai modèle, vous verriez cela. Il est peut-être important d'observer Haggerty et Srivinasans 1991 dans Psychometrika que "la pratique [...] de conclure qu'un modèle avec une précision prédictive plus élevée est" plus vraie "n'est pas une inférence valide".

— Momo

Je n'ai pas encore regardé le livre, mais la "sélection de variables" et la "transformation" sonnent déjà. Voir Algorithmes pour la sélection automatique de modèle et la nature de la relation entre les prédicteurs et les dépendants en régression . Je ne voudrais pas non plus confondre la performance aux examens des étudiants en statistique avec la capacité de travail réel des statisticiens.

— Scortchi - Réintégrer Monica

Ces informations fournies par Faraway semblent terriblement anecdotiques pour servir de base à un principe général général sur le domaine de la statistique. Je ne voudrais pas construire un modèle de modélisation prédictive basé sur de tels exemples non reproductibles. Il est également possible qu'ils aient été, consciemment ou non, triés sur le volet.

— rolando2

Une conclusion logiquement valable qui peut être dérivée de cette anecdote est qu'aucun des étudiants de Faraway n'avait (encore) acquis les compétences nécessaires pour bien performer à son test de prédiction. Il est difficile de faire le moindre lien entre ce résultat et vos spéculations sur la performance des statisticiens expérimentés.

— whuber

@whuber: Je ne pense pas de cette façon. Je suis d'accord que 28 étudiants sont un peu petits, mais je pense que cette observation réelle a de sérieuses implications. Si Faraway a fait le vrai modèle, et qu'il a repris le travail de plusieurs étudiants, il n'a pas pu trouver d'erreur grave, mais les prédictions sont loin de ce qu'elles devraient être. Ensuite, cela en dit long sur «l'incertitude du modèle» impliquée, qu'il faut au moins le travail effectué par un analyste distinct pour comparer les différences, quelle que soit la «vécu» de l'analyste d'origine. Je pense que c'est assez alarmant pour moi.

— Bombyx mori

Réponses:

J'ai demandé au professeur de mon département à ce sujet. Il a dit franchement qu'il n'était pas du tout surpris. Il a suggéré la façon suivante de considérer cela: ce que Faraway a fait n'était qu'une expérience unique, et il n'est pas surprenant que les résultats ne semblent pas avoir de corrélation avec les notes finales. Mais si Faraway répète son «expérience» 100 fois avec le même groupe d'élèves, il est sûr que les élèves qui apprennent mieux les statistiques se comporteront bien, comme l'intervalle de confiance. Donc, à son avis, l'expérience compte, c'est juste une expérience sociale ponctuelle qui n'a pas pu le montrer en raison de l'incertitude du modèle.

— Bombyx mori
source

Je trouve cette excuse hilarante. Je pense que c'est la raison pour laquelle les statistiques sont remplacées par (ou rebaptisées) "science des données". Les gens commencent à se rendre compte que les statistiques enseignées dans les universités ne sont pas très bonnes pour la prévision, et les modèles sans pouvoir prédictif sont inutiles.

— Flounderer

@Flounderer: Je pense que ce n'est pas vraiment une excuse, et ce que vous avez écrit n'est peut-être pas vraiment bien connecté à cette affaire. Tout d'abord, la plupart du temps dans la vie réelle, on a à la fois un ensemble de tests et un ensemble d'entraînement, contrairement au cas de Faraway, il n'y a qu'un seul ensemble d'entraînement disponible. Deuxièmement, si vous jetez un coup d'œil au modèle de Faraway, il est très non linéaire, de sorte que les méthodes de régression ne fonctionnent pas très bien. Par conséquent, tous les modèles linéaires ne sont que des suppositions sauvages. La morale de l'expérience est «tous les modèles sont faux» plutôt que «les statistiques telles qu'elles sont enseignées dans les universités ne sont pas très bonnes pour la prévision».

— Bombyx mori

@Flounderer: En d'autres termes, je crois que si moi (ou quelqu'un d'autre dans le forum) est en position d'étudiant Lointain il y a vingt ans face à cet ensemble d'entraînement bizarre, il est peu probable que nous fassions mieux en utilisant uniquement des modèles linéaires. Je ne pense pas que ce soit du tout lié aux "statistiques enseignées dans les universités".

— Bombyx mori

Les mannequins des élèves étaient presque toutes en forme. Avec n points de données, on peut toujours ajuster un polynôme parfait d'ordre n-1. Un tel modèle est en retard, ne laissant rien à l'erreur aléatoire. Il semble que les élèves aient commis des erreurs de sur-ajustement similaires, mais vraisemblablement avec des fonctions différentes.

Le sur-ajustement est une erreur qui ne devrait être commise que par les élèves. Et cela suggère que l'expérience et l'éducation sont des qualifications nécessaires pour la modélisation.

— Barrage d'Alison
source

«Le sur-ajustement est une erreur qui ne devrait être commise que par les étudiants» est un critère assez élevé à supporter. La modélisation est difficile. Peut-être que quelque chose comme "Le sur-ajustement est quelque chose que les modélisateurs apprennent à reconnaître et à éviter par l'expérience et l'éducation" serait plus proche de la vérité?

— Matthew Drury