Comment comparer les modèles sur la base de l'AIC?

Nous avons deux modèles qui utilisent la même méthode pour calculer la vraisemblance logarithmique et l'AIC pour l'un est inférieur à l'autre. Cependant, celui avec l'AIC inférieur est beaucoup plus difficile à interpréter.

Nous avons du mal à décider si cela vaut la peine d'introduire la difficulté et nous avons jugé cela en utilisant un pourcentage de différence dans l'AIC. Nous avons constaté que la différence entre les deux AIC n'était que de 0,7%, le modèle plus compliqué ayant un AIC de 0,7% inférieur.

La faible différence en pourcentage entre les deux est-elle une bonne raison pour éviter d'utiliser le modèle avec l'AIC inférieur?
Le pourcentage de différence explique-t-il que 0,7% d'informations supplémentaires sont perdues dans le modèle moins compliqué?
Les deux modèles peuvent-ils avoir des résultats très différents?

model-selection aic

— Ali Turab Lotia
source

Duplication possible de Qu'est

— Arun Jose

@ArunJose, il ne semble pas s'agir d'un doublon. Les questions ici sont très différentes.

— Richard Hardy

Non. Cette question ne concerne pas la comparabilité des modèles. Nous savons déjà que les modèles sont comparables. Cette question concerne ce qui compte comme une différence significative dans l'AIC et le compromis entre la complexité et l'ajustement du modèle.

— Ali Turab Lotia

On ne compare pas les valeurs absolues de deux AIC (qui peuvent être comme mais aussi ), mais considère leur différence : où est l'AIC du ème modèle et est le AIC le plus bas obtenu parmi l'ensemble des modèles examinés (c'est-à-dire le modèle préféré). La règle d'or, décrite par exemple dans Burnham & Anderson 2004 , est la suivante: $\sim 100$ $\sim 1000000$

Δ_{i} = A I C_{i} - A I C_{m i n},

$\Delta_i=AIC_i-AIC_{\rm min},$

A I C_{i}

$AIC_i$

i

$i$

A I C_{m i n}

$AIC_{\rm min}$

si , alors il y a un support substantiel pour le ème modèle (ou les preuves contre lui ne valent qu'une simple mention), et la proposition qu'il s'agit d'une description correcte est hautement probable; $\Delta_i<2$ $i$
$2<\Delta_i<4$ $i$
$4<\Delta_i<7$ $i$
$\Delta_i>10$

Maintenant, concernant les 0,7% mentionnés dans la question, considérons deux situations:

$AIC_1=AIC_{\rm min}=100$ $AIC_2$ $AIC_2=100.7$ $\Delta_2=0.7<2$
$AIC_1=AIC_{\rm min}=100000$ $AIC_2$ $AIC_2=100700$ $\Delta_2=700\gg 10$

Par conséquent, dire que la différence entre les AIC est de 0,7% ne fournit aucune information.

$\mathcal{L}$ $\Delta_i$ $\Delta_i = AIC_i − AIC_{\rm min}$ $AIC_{\rm min} := 0$

La formulation de l'AIC pénalise l'utilisation d'un nombre excessif de paramètres, décourageant ainsi le surajustement. Il préfère les modèles avec moins de paramètres, tant que les autres n'offrent pas un ajustement sensiblement meilleur. L'AIC essaie de sélectionner un modèle (parmi ceux examinés) qui décrit le mieux la réalité (sous la forme des données examinées). Cela signifie qu'en fait le modèle étant une véritable description des données n'est jamais considéré. Notez que l'AIC vous donne les informations dont le modèle décrit mieux les données, il ne donne aucune interprétation .

$\Delta_i$ $\Delta_i<2$ $\Delta_i<5$

$i$

p_{i} = \exp (\frac{- Δ_{i}}{2}),

$p_i=\exp\left(\frac{-\Delta_i}{2}\right),$

$AIC_{\rm min}$ $i$ $\Delta_i=1.5$ $p_i=0.47$ $\Delta_i=15$ $p_i=0.0005$ $i$ $AIC_{\rm min}$

Enfin, concernant la formule AIC:

A I C = 2 k - 2 L,

$AIC=2k-2\mathcal{L},$

$\mathcal{L}$ $\Delta_i$ $2k$ $\frac{\Delta_i}{2\Delta k} < 1$

TL; DR

C'est une mauvaise raison; utiliser la différence entre les valeurs absolues des AIC.
Le pourcentage ne dit rien.
Impossible de répondre à cette question en raison de l'absence d'informations sur les modèles, les données et la signification des différents résultats .

— corey979
source

C'est l'explication la plus claire que j'ai jamais vue de cette mystérieuse affaire. J'ai recherché l'article auquel vous avez fait référence (pp. 270-272) et votre explication ici est une représentation simple et claire mais très précise de ce que l'article explique.

— Tripartio

Pourriez-vous peut-être aider avec cette question de suivi? stats.stackexchange.com/questions/349883/…

— Tripartio