Il est bien établi, au moins chez les statisticiens d'un calibre supérieur, que les modèles dont les valeurs de la statistique AIC se situent dans un certain seuil de la valeur minimale doivent être considérés comme appropriés comme modèle minimisant la statistique AIC. Par exemple, dans [1, p.221], nous trouvons
Les modèles avec un petit GCV ou AIC seraient alors considérés comme les meilleurs. Bien sûr, il ne faut pas simplement minimiser aveuglément le GCV ou l'AIC. Au contraire, tous les modèles avec des valeurs GCV ou AIC raisonnablement faibles devraient être considérés comme potentiellement appropriés et évalués en fonction de leur simplicité et de leur pertinence scientifique.
De même, dans [2, p.144] nous avons
Il a été suggéré (Duong, 1984) que les modèles avec des valeurs AIC inférieures à c de la valeur minimale devraient être considérés comme compétitifs (avec c = 2 comme valeur typique). La sélection parmi les modèles compétitifs peut alors être basée sur des facteurs tels que la blancheur des résidus (section 5.3) et la simplicité du modèle.
Les références:
- Ruppert, D .; Wand, MP & Carrol, RJ Semiparametric Regression , Cambridge University Press, 2003
- Brockwell, PJ & Davis, RA Introduction aux séries chronologiques et aux prévisions , John Wiley & Sons, 1996
Donc, compte tenu de ce qui précède, lequel des deux modèles ci-dessous devrait être préféré?
print( lh300 <- arima(lh, order=c(3,0,0)) )
# ... sigma^2 estimated as 0.1787: log likelihood = -27.09, aic = 64.18
print( lh100 <- arima(lh, order=c(1,0,0)) )
# ... sigma^2 estimated as 0.1975: log likelihood = -29.38, aic = 64.76
Plus généralement, quand est-il approprié de sélectionner des modèles en minimisant aveuglément l'AIC ou les statistiques associées?