Quel est l'intérêt de diviser les données en parties de formation et de test pour évaluer les propriétés de prédiction lorsque nous avons l'AIC?

De manière asymptotique, la minimisation de l'AIC est équivalente à la minimisation de la MSE de validation croisée avec sortie pour les données transversales [ 1 ]. Alors, quand nous avons l'AIC, pourquoi utilise-t-on du tout la méthode de division des données en ensembles de formation, de validation et de test pour mesurer les propriétés prédictives des modèles? Quels sont précisément les avantages de cette pratique?

Je peux penser à une raison: si l'on veut évaluer les performances prédictives des modèles, l'analyse hors échantillon est utile. Mais bien que l'AIC ne soit pas une mesure de la précision des prévisions , on a généralement une bonne idée si un modèle atteint son potentiel maximum (pour les données fournies) en termes de capacité à prédire.

predictive-models aic

— Erosennin
source

Un extrait des documents de sklearn : la sélection du modèle basée sur les critères d'information est très rapide, mais elle repose sur une estimation correcte des degrés de liberté, est dérivée pour les grands échantillons (résultats asymptotiques) et suppose que le modèle est correct, c'est-à-dire que les données sont réellement généré par ce modèle. Ils ont également tendance à se casser lorsque le problème est mal conditionné (plus de fonctionnalités que d'échantillons).

— sascha

Je ne pense pas réellement que AIC suppose un modèle correct ( stats.stackexchange.com/questions/205222/… ). En ce qui concerne la taille de l'échantillon et l'AIC étant un résultat asymptotique: vous ne diviseriez jamais vos données en trois parties lorsque vous avez peu de données. La petite taille de l'échantillon est donc problématique à la fois pour l' analyse hors échantillon et pour l'AIC

— Erosennin

@sascha a un point là: pour que l'AIC se rapproche des informations KL attendues. la perte bien l' un des modèles doit être assez bon. Je ne pense pas que quiconque préconise l'utilisation de l'AIC pour comparer les mauvais modèles pour voir lequel est moins mauvais.

— Scortchi - Réintégrer Monica

tr (J (θ_{0}) (I (θ_{0}))^{- 1}) \approx k

$\operatorname{tr}(J(\theta_0)(I(\theta_0))^{-1}) \approx k$ dans la diapositive 10 à laquelle @sascha est lié. (Je regardais juste sur notre site - nous semblons avoir beaucoup d'assertions sur l'AIC, et des références contenant encore plus d'assertions; mais peu au-delà. De mémoire, Pawitan, In All Likelihood , & Burnham & Anderson, Model Selection , donnent des dérivations .)

— Scortchi - Réintégrer Monica

Ok, j'ai sauté la partie TIC et j'ai raté ce morceau. Tu as tout à fait raison. Toutes mes excuses à @sascha, et merci de m'avoir éclairé :) Oui, je viens de jeter un œil à Burnham & Anderson moi-même. Grande ressource!

— Erosennin

Dans la pratique, j'utilise toujours la validation croisée ou une simple répartition train-test plutôt que l'AIC (ou BIC). Je ne connais pas trop la théorie de l'AIC, mais deux préoccupations principales me conduisent à préférer des estimations plus directes de la précision prédictive:

Le nombre lui-même ne vous dit pas grand-chose sur la précision d'un modèle. L'AIC peut fournir des preuves quant au modèle le plus précis parmi plusieurs, mais il ne vous indique pas la précision du modèle en unités du DV. Je m'intéresse presque toujours à des estimations de précision concrètes de ce type, car elles me disent à quel point un modèle est utile en termes absolus, et combien il est plus précis qu'un modèle de comparaison.
AIC, comme BIC, a besoin pour chaque modèle d'un nombre de paramètres ou d'une autre valeur qui mesure la complexité du modèle. Il n'est pas clair ce que vous devriez faire pour cela dans le cas de méthodes prédictives moins traditionnelles comme la classification du plus proche voisin, les forêts aléatoires ou la nouvelle méthode farfelue de l'ensemble que vous avez gribouillée sur une serviette cocktail au milieu de la cintreuse du mois dernier. En revanche, des estimations de précision peuvent être produites pour tout modèle prédictif, et de la même manière.

— Kodiologue
source

+1 Génial! # 2 est un excellent argument! # 1 traite de ce que j'écris sur l'AIC n'étant pas une mesure de l'exactitude des prévisions, grand point! Puis-je vous demander comment vous comparez "combien il est plus précis qu'un modèle de comparaison"? J'ai récemment pensé à cela en comparant le MSE de deux modèles. Le MSE des modèles 1 et 2 était respectivement de 10 et 20. Comment puis-je interpréter la précision du modèle 1? Je pense que ça ne peut pas être aussi simple que 20/10, parce que comparer cela doit / doit prendre en compte l'échelle du DV?

— Erosennin

Je regarde simplement les deux chiffres de précision respectifs (MSE ou autre), plutôt que d'essayer de faire un score de comparaison. De plus, il est toujours utile d'avoir un score de précision pour un modèle trivial (c'est-à-dire un modèle qui n'utilise aucun prédicteur) si ce n'était pas déjà l'un des modèles que vous compariez.

— Kodiologue

(+1) Il existe une industrie artisanale qui invente des AIC, quasi-AIC efficaces, etc. pour des situations qui ne sont pas une estimation de probabilité maximale avec un non fixe. paramètres.

— Scortchi - Réintégrer Monica

@ Kodiologist: Je pense que ce serait très intéressant avec un score de comparaison. De cette façon, nous pouvons comparer les modèles fabriqués sur différents ensembles de données, par exemple évaluer les performances des anciens modèles par rapport aux nouveaux modèles lorsque de nouvelles données sont disponibles.

— Erosennin

En ce qui concerne 2. il existe un moyen relativement facile d'obtenir les degrés de liberté du modèle (bien que dans certains cas, le calcul puisse prendre un certain temps, dans de nombreuses situations courantes, il existe un raccourci); lequel est

k = \sum_{i} \frac{\partial {\hat{y}}_{i}}{\partial y_{i}}

$k=\sum_i \frac{\partial \hat{y}_i}{\partial y_i}$ ; dans un sens direct assez littéral, cela mesure les degrés de liberté du modèle pour approximer les données. Voir par exemple l'article JASA de 1998 de Ye. Par exemple, StasK renvoie à une référence complète dans cette réponse. ... ctd

— Glen_b -Reinstate Monica