Vous ne pouvez pas comparer les deux modèles car ils ne modélisent pas la même variable (car vous vous reconnaissez correctement). Néanmoins, l'AIC devrait fonctionner lors de la comparaison des modèles imbriqués et non imbriqués.
Juste un rappel avant de continuer: une log-vraisemblance gaussienne est donnée par
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
étant la structure de covariance de votre modèle, | D | le nombre de points dans vos ensembles de données, μ la réponse moyenne et x votre variable dépendante.K|D|μx
Plus précisément, l'AIC est calculé comme étant égal à , où k est le nombre d'effets fixes dans votre modèle et L votre fonction de vraisemblance [1]. Il compare pratiquement le compromis entre la variance ( 2 k ) et le biais ( 2 log ( L ) ) dans vos hypothèses de modélisation. En tant que tel dans votre cas, il comparerait deux structures log-vraisemblance différentes en ce qui concerne le terme de biais. En effet, lorsque vous calculez pratiquement votre log-vraisemblance, vous regardez deux termes: un terme d'ajustement, noté - 12k−2log(L)kL2k2log(L), et un terme de pénalisation de la complexité, noté-1−12(x−μ)TK−1(x−μ). Par conséquent, vous voyez que votre terme d'ajustement est complètement différent entre les deux modèles; dans le premier cas, vous comparez les résidus des données brutes et dans l'autre cas, les résidus des données enregistrées.−12log(|K|)
Mis à part Wikipedia, AIC est également défini pour égaler: [3]; cette forme rend encore plus évident pourquoi différents modèles avec différentes variables dépendantes ne sont pas comparables. Le RSS est le deux cas est tout simplement incomparable entre les deux.|D|log(RSS|D|)+2k
Le papier original d'Akaike [4] est en fait assez difficile à saisir (je pense). Il est basé sur la divergence KL (différence entre deux distributions grosso modo) et cherche à prouver comment vous pouvez approximer la vraie distribution inconnue de vos données et la comparer à la distribution des données que votre modèle suppose. C'est pourquoi "un score AIC plus petit est meilleur" ; vous êtes plus proche de la véritable distribution approximative de vos données.
Donc, pour rassembler tout cela, les choses évidentes à retenir lors de l'utilisation de l'AIC sont trois [2,5]:
Vous ne pouvez pas l'utiliser pour comparer des modèles de différents ensembles de données.
Vous devez utiliser les mêmes variables de réponse pour tous les modèles candidats.
Vous devriez avoir , parce que sinon vous ne recevez pas une bonne consistance asymptotique.|D|>>k
Désolé de vous annoncer la mauvaise nouvelle, mais utiliser AIC pour montrer que vous choisissez une variable dépendante plutôt qu'une autre n'est pas une chose statistiquement valable à faire. Vérifiez la distribution de vos résidus dans les deux modèles, si le cas de données journalisé a des résidus normalement distribués et pas le cas de données brutes, vous avez toute la justification dont vous pourriez avoir besoin. Vous pouvez également vouloir vérifier si vos données brutes correspondent à un lognormal, cela pourrait également être une justification suffisante.
Pour des hypothèses mathématiques strictes, le jeu est la divergence KL et la théorie de l'information ...
Ah, et quelques références:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Akaike Information Criterion, Shuhua Hu, (Présentation p.17-18)
- Analyse statistique multivariée appliquée, Johnson & Wichern, 6e éd. (p. 386-387)
- Un nouveau regard sur l'identification du modèle statistique, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Tutoriel de sélection de modèle # 1: Critère d'information d'Akaike, D. Schmidt et E. Makalic, (Présentation p.39)