Quand est-il approprié de sélectionner des modèles en minimisant l'AIC?


12

Il est bien établi, au moins chez les statisticiens d'un calibre supérieur, que les modèles dont les valeurs de la statistique AIC se situent dans un certain seuil de la valeur minimale doivent être considérés comme appropriés comme modèle minimisant la statistique AIC. Par exemple, dans [1, p.221], nous trouvons

Les modèles avec un petit GCV ou AIC seraient alors considérés comme les meilleurs. Bien sûr, il ne faut pas simplement minimiser aveuglément le GCV ou l'AIC. Au contraire, tous les modèles avec des valeurs GCV ou AIC raisonnablement faibles devraient être considérés comme potentiellement appropriés et évalués en fonction de leur simplicité et de leur pertinence scientifique.

De même, dans [2, p.144] nous avons

Il a été suggéré (Duong, 1984) que les modèles avec des valeurs AIC inférieures à c de la valeur minimale devraient être considérés comme compétitifs (avec c = 2 comme valeur typique). La sélection parmi les modèles compétitifs peut alors être basée sur des facteurs tels que la blancheur des résidus (section 5.3) et la simplicité du modèle.

Les références:

  1. Ruppert, D .; Wand, MP & Carrol, RJ Semiparametric Regression , Cambridge University Press, 2003
  2. Brockwell, PJ & Davis, RA Introduction aux séries chronologiques et aux prévisions , John Wiley & Sons, 1996

Donc, compte tenu de ce qui précède, lequel des deux modèles ci-dessous devrait être préféré?

print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787:  log likelihood = -27.09,  aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975:  log likelihood = -29.38,  aic = 64.76

Plus généralement, quand est-il approprié de sélectionner des modèles en minimisant aveuglément l'AIC ou les statistiques associées?


Vous n'avez donné l'AIC pour aucun des modèles.
Peter Flom - Réintègre Monica

J'ai montré comment l'obtenir avec R.
Hibernation

1
+1 de problèmes dans les modèles ARIMA mentionnés ci-dessous. Mais sinon: "Simplifier un modèle pronostique: une étude de simulation basée sur des données cliniques". Ambler 2002 est la référence la plus citée à ce sujet.
charles

Réponses:


4

Paraphrasant les notes de conférence de Cosma Shalizi sur la vérité sur la régression linéaire , tu ne choisiras jamais un modèle simplement parce qu'il est arrivé à minimiser une statistique comme l'AIC , par exemple

Every time someone solely uses an AIC statistic for model selection, an angel loses its
wings. Every time someone thoughtlessly minimises it, an angel not only loses its wings,
but is cast out of Heaven and falls in most extreme agony into the everlasting fire.

1
Comme l'a dit un juif célèbre: "L'imagination est meilleure que la connaissance" :)
Hibernation

Et, comme l'a dit un célèbre non-juif "Vous pouvez voir beaucoup de choses en regardant" (Yogi Berra).
Peter Flom - Réintègre Monica

Et ce que nous voyons, bien sûr, dépend principalement de ce que nous recherchons. --John Lubbock
Hibernation du

12

Je dirais qu'il est souvent approprié d'utiliser l'AIC dans la sélection des modèles, mais rarement juste de l'utiliser comme seule base pour la sélection des modèles. Nous devons également utiliser des connaissances substantielles.

Dans votre cas particulier, vous comparez un modèle avec un AR de 3ème ordre à un avec un AR de 1er ordre. En plus de l'AIC (ou quelque chose de similaire), je regarderais les tracés d'autocorrélation et d'autocorrélation partielle. Je voudrais également considérer ce 3e modèle d'ordre serait dire . Est-ce que ça fait du sens? Cela ajoute-t-il à des connaissances substantielles? (Ou, si vous êtes uniquement intéressé par la prédiction, cela aide-t-il à prédire?)

Plus généralement, il arrive parfois que trouver une très petite taille d'effet soit intéressant.


Vous venez de dire qu'un bon algorithme pour sélectionner un modèle arima ne devrait pas être basé uniquement sur le critère AIC (ou similaire)?
Hibernation


Et à cette fin, je l'ai entendu comme au revoir auto.arima. Ma préférence serait de suivre une approche décrite dans le chapitre 6 de Bisgaard, S. & Kulahci, M. Analyse et prévision des séries temporelles par l'exemple John Wiley & Sons, Inc., 2011, encore plus précisément dans la section 6.5 FONCTION DE RÉPONSE IMPULSIONNELLE À ÉTUDIER LES DIFFÉRENCES DANS LES MODÈLES
Hibernation du

1
@Hibernating: Les auteurs de auto.arima, Hyndman & Khandakar (2008) , disent: - "Les prévisions automatiques d'un grand nombre de séries chronologiques univariées sont souvent nécessaires dans les affaires. Il est courant d'avoir plus de mille lignes de produits qui nécessitent des prévisions au moins une fois par mois. Même lorsqu'un plus petit nombre de prévisions est requis, il se peut que personne ne soit convenablement formé à l'utilisation de modèles de séries chronologiques pour les produire. Dans ces circonstances, un algorithme de prévision automatique est un outil essentiel. " Notez ces circonstances .
Scortchi - Réintégrer Monica

2
Merci mais j'avais lu ça avant. Même si nous ignorons les problèmes évidents avec la partie "auto" pour l'instant, il y a des problèmes avec la partie "arima", surtout quand elle est étendue pour inclure les modèles saisonniers. Les modèles saisonniers ARIMA ont été fortement critiqués par PJ Harrison, C Chatfield et d'autres personnalités avec lesquelles j'ai eu du plaisir à apprendre. Je n'ai rien contre les prévisions automatiques quand elles sont i) absolument nécessaires et ii) basées sur des algorithmes, je peux trouver du son - sinon je suis le conseil de DR Cox dans son commentaire sur l'article des deux cultures de Leo Breiman dans Stat Science il y a quelques années.
Hibernation le

8

Vous pouvez considérer l'AIC comme un seuil de coupure de valeur plus raisonnable (c'est-à-dire plus grand) . Mais la sélection de modèle basée sur les valeurs ou toute autre métrique à une variable à la fois se heurte à des difficultés, ayant tous les problèmes de sélection de variable par étapes. De manière générale, l'AIC fonctionne mieux s'il est utilisé pour sélectionner un seul paramètre unique (par exemple, le coefficient de retrait) ou pour comparer 2 ou 3 modèles candidats. Sinon, l'ajustement de l'ensemble des variables d'une manière ou d'une autre, en utilisant le rétrécissement ou la réduction des données, entraînera souvent une discrimination prédictive supérieure. La parcimonie est en contradiction avec la discrimination prédictive.PPP


2
Votre dernière phrase est intéressante. Je me souviens avoir lu que l'ajout de prédicteurs même insignifiants à la régression pourrait bien être justifié si le but ultime est la prédiction. Je n'y ai pas prêté beaucoup d'attention à l'époque mais maintenant je vais essayer de trouver cette référence.
Hibernation

3
Au lieu d' ajouter, je dirais d' éviter de supprimer . Et ce n'est pas seulement de la prédiction, mais l'utilisation d'évaluations d'associations statistiques pour guider la sélection des variables provoque des biais et des erreurs standard non valides et des limites de confiance.
Frank Harrell
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.