Malheureusement, ce sera une réponse plutôt insatisfaisante ...
Tout d'abord, généralement pour le calcul de l'AIC, vous utiliserez l'estimation du maximum de vraisemblance de qui serait biaisée. Donc, cela réduirait à et finalement le calcul que vous effectuez serait réduit à . Deuxièmement, je vous renvoie à l'article Wikipedia sur l'AIC, en particulier dans la section des cas d'équivariance . Comme vous le voyez là , il est clair que la plupart des dérivations omettent une constante . Cette constante n'est pas pertinente aux fins de comparaison de modèles, elle est donc omise. Il est assez fréquent de voir des dérivations contradictoires de l'AIC en raison exactement de ce problème. Par exemple , l'analyse statistique multivariée appliquée de Johnson & Wichern , 6e édition donne AIC comme:σ2σ2=RSSn1+2dnCnlog(RSSN)+2d (chap. 7.6), ce qui ne correspond clairement pas à la définition de James et al. vous utilisez. Aucun des deux livres n'est faux en soi . Juste des gens qui utilisent différentes constantes. Dans le cas de James et al. livre, il semble qu'ils ne font pas allusion à ce point. Dans d'autres livres, par exemple. Ravishanker et Dey's A First Course in Linear Model Theory ceci est encore plus profond comme l'écrivent les auteurs:
AIC(p)=−2l(y;X,β^ML,σ^2ML)+2p=−Nlog(σ^2ML)/2−N/2+2p(7.5.10)
ce qui est intéressant, il ne peut pas non plus être vrai simultanément. Comme Burnham et Anderson (1998) Chapt 2.2 écrivent: " Dans le cas particulier de l'estimation des moindres carrés (LS) avec des erreurs normalement distribuées, et en dehors d'une constante additive arbitraire, l'AIC peut être exprimé comme une simple fonction de la somme résiduelle des carrés . "; B&A suggère la même variante AIC que J&W utilise. Ce qui vous gâche, c'est cette constante particulière (et le fait que vous n'utilisiez pas l'estimation ML pour les résidus.) En regardant la reconnaissance des formes et l'apprentissage automatique de M. Bishop (2006), je trouve une définition encore plus contradictoire:
AIC=l(D|wML)−M(1.73)
ce qui est drôle car il omet non seulement le multiplicateur du papier d'origine mais va également de l'avant pour faire tomber les signes afin qu'il puisse utiliser la sélection basée sur AIC comme problème de maximisation ...
Je recommanderais de m'en tenir à l'ancienne définition si vous voulez faire des dérivations théoriques. C'est celui qu'Akaike déclare dans son article original. Toutes les autres formules intermédiaires ont tendance à être désordonnées et / ou à faire des hypothèses implicites. Si c'est une consolation, vous "n'avez rien fait de mal".−2log(L)+2p