Je dirais qu'au moins en discutant des modèles linéaires (comme les modèles AR), et AIC ajustés ne sont pas si différents.R2
Considérez la question de savoir si doit être inclus dans
Cela équivaut à comparer les modèles
où . Nous disons que est le vrai modèle si . Notez que . Les modèles sont ainsi imbriqués . Une procédure de sélection de modèle est une règle dépendante des données qui sélectionne le plus plausible de plusieurs modèles. y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ M 1X2
y=X1(n×K1)β1+X2(n×K2)β2+ϵ
E(u|X1,X2)=0M2β2≠0M1⊂M2 MM1M2::y=X1β1+uy=X1β1+X2β2+u,
E(u|X1,X2)=0M2β2≠0M1⊂M2Mˆ
Nous disons que
est cohérent si
lim n → ∞ P ( M = M 1 | M 1 )Mˆ
limn→∞P(Mˆ=M1|M1)limn→∞P(Mˆ=M2|M2)==11
Considérez ajusté . Autrement dit, choisissez if . Comme diminue de façon monotone dans , cette procédure équivaut à minimiser . À son tour, cela équivaut à minimiser . Pour un suffisamment grand , ce dernier peut être écrit comme
oùM 1 ˉ R 2 1 >R2M1ˉ R 2s2s2log(s2)nlog( s 2 )R¯21> R¯22R¯2s2s2Journal( s2)n
log(s2)==≈≈log(σˆ2nn−K)log(σˆ2)+log(1+Kn−K)log(σˆ2)+Kn−Klog(σˆ2)+Kn,
σˆ2est l'estimateur ML de la variance d'erreur. La sélection de modèle basée sur équivaut donc asymptotiquement à choisir le modèle avec le plus petit
. Cette procédure est incohérente.
R¯2log(σˆ2)+K/n
Proposition :
limn→∞P(R¯21>R¯22|M1)<1
Preuve :
où suit l'avant-dernière ligne car la statistique est la statistique LR dans le cas de régression linéaire qui suit un asymptotique distribution nulle. QED
P(R¯21>R¯22|M1)≈=≈=→<P(log(s21)<log(s22)|M1)P(nlog(s21)<nlog(s22)|M1)P(nlog(σˆ21)+K1<nlog(σˆ22)+K1+K2|M1)P(n[log(σˆ21)−log(σˆ22)]<K2|M1)P(χ2K2<K2)1,
χ2K2
Considérons maintenant le critère d'Akaike,
Ainsi, l'AIC échange également la réduction de la SSR impliquée par des régresseurs supplémentaires contre le "terme de pénalité". , "qui pointe dans la direction opposée. Ainsi, choisissez si
, sinon sélectionnez .
AIC=log(σˆ2)+2Kn
M1AIC1<AIC2M2
On peut voir que l' est également incohérent en continuant la preuve ci-dessus à la ligne trois avec . Le ajusté et l' choisissent donc le "grand" modèle avec une probabilité positive, même si est le vrai modèle.P (AICP(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1)R2AICM2M1
Comme la pénalité pour la complexité dans AIC est un peu plus grande que pour ajusté , elle peut cependant être moins sujette à une sur-sélection. Et il a d'autres belles propriétés (minimisant la divergence KL vers le vrai modèle si ce n'est pas dans l'ensemble des modèles considérés) qui ne sont pas abordées dans mon article.R2