Prérequis pour la comparaison de modèles AIC

Quelles sont exactement les conditions préalables qui doivent être remplies pour que la comparaison des modèles AIC fonctionne?

Je viens de contourner cette question lorsque j'ai fait une comparaison comme celle-ci:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

De cette façon, j'ai justifié la logtransformation de variable usili. Mais je ne sais pas si je peux comparer les modèles AIC lorsque, par exemple, la variable dépendante est différente?

La réponse idéale comprendrait la liste des conditions préalables (hypothèses mathématiques).

— Curieuse
source

Vous ne pouvez pas comparer les deux modèles car ils ne modélisent pas la même variable (car vous vous reconnaissez correctement). Néanmoins, l'AIC devrait fonctionner lors de la comparaison des modèles imbriqués et non imbriqués.

Juste un rappel avant de continuer: une log-vraisemblance gaussienne est donnée par

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

étant la structure de covariance de votre modèle,le nombre de points dans vos ensembles de données, la réponse moyenne et votre variable dépendante. $K$ $|D|$ $\mu$ $x$

Plus précisément, l'AIC est calculé comme étant égal à , où est le nombre d'effets fixes dans votre modèle et votre fonction de vraisemblance [1]. Il compare pratiquement le compromis entre la variance ( ) et le biais ( ) dans vos hypothèses de modélisation. En tant que tel dans votre cas, il comparerait deux structures log-vraisemblance différentes en ce qui concerne le terme de biais. En effet, lorsque vous calculez pratiquement votre log-vraisemblance, vous regardez deux termes: un terme d'ajustement, noté $2k - 2 \log(L)$ $k$ $L$ $2k$ $2\log(L)$ , et un terme de pénalisation de la complexité, noté $-\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu)$ . Par conséquent, vous voyez que votre terme d'ajustement est complètement différent entre les deux modèles; dans le premier cas, vous comparez les résidus des données brutes et dans l'autre cas, les résidus des données enregistrées. $-\frac{1}{2} \log(|K|)$

Mis à part Wikipedia, AIC est également défini pour égaler: [3]; cette forme rend encore plus évident pourquoi différents modèles avec différentes variables dépendantes ne sont pas comparables. Le RSS est le deux cas est tout simplement incomparable entre les deux. $|D| \log\left(\frac{RSS}{|D|}\right) + 2k$

Le papier original d'Akaike [4] est en fait assez difficile à saisir (je pense). Il est basé sur la divergence KL (différence entre deux distributions grosso modo) et cherche à prouver comment vous pouvez approximer la vraie distribution inconnue de vos données et la comparer à la distribution des données que votre modèle suppose. C'est pourquoi "un score AIC plus petit est meilleur" ; vous êtes plus proche de la véritable distribution approximative de vos données.

Donc, pour rassembler tout cela, les choses évidentes à retenir lors de l'utilisation de l'AIC sont trois [2,5]:

Vous ne pouvez pas l'utiliser pour comparer des modèles de différents ensembles de données.
Vous devez utiliser les mêmes variables de réponse pour tous les modèles candidats.
Vous devriez avoir , parce que sinon vous ne recevez pas une bonne consistance asymptotique. $|D| >> k$

Désolé de vous annoncer la mauvaise nouvelle, mais utiliser AIC pour montrer que vous choisissez une variable dépendante plutôt qu'une autre n'est pas une chose statistiquement valable à faire. Vérifiez la distribution de vos résidus dans les deux modèles, si le cas de données journalisé a des résidus normalement distribués et pas le cas de données brutes, vous avez toute la justification dont vous pourriez avoir besoin. Vous pouvez également vouloir vérifier si vos données brutes correspondent à un lognormal, cela pourrait également être une justification suffisante.

Pour des hypothèses mathématiques strictes, le jeu est la divergence KL et la théorie de l'information ...

Ah, et quelques références:

http://en.wikipedia.org/wiki/Akaike_information_criterion
Akaike Information Criterion, Shuhua Hu, (Présentation p.17-18)
Analyse statistique multivariée appliquée, Johnson & Wichern, 6e éd. (p. 386-387)
Un nouveau regard sur l'identification du modèle statistique, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
Tutoriel de sélection de modèle # 1: Critère d'information d'Akaike, D. Schmidt et E. Makalic, (Présentation p.39)

— usεr11852 dit Reinstate Monic
source

Merci! Je n'ai pas compris les maths mais j'ai compris l'essentiel du message. Cependant, pouvez-vous énumérer toutes les conditions requises pour la comparaison des modèles AIC? Juste pour être sûr que je ne ferai pas d'autre erreur la prochaine fois. Je vais les vérifier un par un.

— Curieux

| D |

$|D|$

p

$p$

L (θ)

$L(\theta)$

θ

$\theta$

p (x | θ)

$p(x|\theta)$

— usεr11852 dit Réintégrer Monic le

merci d'avoir ajouté la liste de ces 3 hypothèses à la réponse! Voilà ce dont j'avais besoin.

— Curieux

En regardant à nouveau votre réponse: votre point 1. "Vous ne pouvez pas l'utiliser pour comparer des modèles de différents ensembles de données" . Qu'entendez-vous par «ensemble de données»? Que faire si je modifie l'ensemble de variables dépendantes? Je suppose que dans ce cas, l'AIC devrait être toujours comparable? Pouvez-vous mettre à jour votre réponse pour clarifier cela?

— Curieux

R S S

$RSS$

μ

$\mu$

x

$x$

uu0 $\prod_i y_i^{-1}$ $2\sum_i\log (y_i)$ au numéro AIC pour uu0. Vous auriez donc dû AIC (uu0)+2*sum (log (usili))être comparé àAIC (uu1)

— probabilitéislogique
source

Je ne comprends pas ce que vous suivez avec votre tentative de "corriger" l'AIC d'une manière ou d'une autre et qu'est-ce que vous avez réellement obtenu (comment interpréter votre résultat). Quoi qu'il en soit, ne creusez pas là-dessus, cela n'a pas d'importance parce que ma question portait sur quelque chose de complètement différent: quelles sont les conditions générales pour que l'AIC (réel, non corrigé) soit sensiblement comparable. Ne vous concentrez pas sur cet exemple particulier, c'est juste un exemple de la chose générale.

— Curieux

- 2 \log (p (y | θ))

$-2\log (p (y|\theta))$ changes under the transformation,

x = g (y)

$x=g (y)$ (for eg,

x = l o g (y)

$x=log (y)$ ). Vous devez tenir compte du jacobien de ce changement lorsque vous utilisez AIC. leAIC() function you are using does not account for this.

— probabilityislogic

@probabilityislogic: Do you have any academic references for your suggestion (AIC (uu0)+2*sum (log (usili))) so that I can cite them in academic writings? Thanks.

— KuJ

This excerpt from Akaike 1978 provides a citation in support of the solution by @probabilityislogic.

Akaike, H. 1978. On the Likelihood of a Time Series Model. Journal of the Royal Statistical Society. Series D (The Statistician) 27:217-235.

— bjd
source

désolé, je ne comprends pas, qu'est-ce que la "transformation d'une variable" et comment est-elle liée à ma question. Veuillez expliquer, merci

— Curieux