Interprétation de la valeur AIC

9

Les valeurs typiques de l'AIC que j'ai vues pour les modèles logistiques sont en milliers, au moins en centaines. par exemple sur http://www.r-bloggers.com/how-to-perform-a-logistic-regression-in-r/ l'AIC est 727.39

Bien qu'il soit toujours dit que l'AIC ne devrait être utilisé que pour comparer des modèles, je voulais comprendre ce que signifie une valeur AIC particulière. Selon la formule, $AIC= -2 \log(L)+ 2K$

Où, L = probabilité maximale de l'estimateur MLE, K est le nombre de paramètres

Dans l'exemple ci-dessus, K = 8

donc, avec une simple arithmatique:

727.9 = -2*log(L)+ 2*8
Hence, 711.39 = -2*log(L)
Hence, log (L)= 711.39/-2 = -355.695
Hence, L = exp(-355.695) = 3.3391E-155

Donc, si ma compréhension est correcte, c'est la probabilité que la fonction identifiée par MLE ajuste les données. Cela semble vraiment vraiment très faible.

Qu'est-ce que j'oublie ici?

— TAK
source

Si nous le regardons comme

pmf (observed data; parameter estimates)

$\text{pmf}(\text{observed data}; \text{parameter estimates})$

— Björn

Désolé, coupure, si nous regardons les choses de cette façon, cela suggère que le grand nombre d'enregistrements obtenant exactement les données observées n'était pas si probable pour les estimations des paramètres.

— Björn

9

Il n'y a pas de probabilité "typique" ou correcte pour un modèle. Il en va de même pour l' AIC , c'est-à-dire la probabilité log négative pénalisée pour un certain nombre de paramètres. Une valeur inférieure de AIC suggère un «meilleur» modèle, mais c'est une mesure relative de l'ajustement du modèle. Il est utilisé pour la sélection des modèles, c'est-à-dire qu'il vous permet de comparer différents modèles estimés sur le même ensemble de données.

Rappelez-vous que le GEP Box dit que "tous les modèles sont faux, mais certains sont utiles", vous n'êtes pas intéressé à trouver un modèle qui correspond parfaitement à vos données car il est impossible et un tel modèle dans de nombreux cas serait très pauvre et sur-adapté . Au lieu de cela, vous cherchez le meilleur que vous pouvez obtenir, le plus utile. L'idée générale derrière AIC est qu'un modèle avec un nombre inférieur de paramètres est meilleur, ce qui est en quelque sorte cohérent avec l' argument du rasoir d'Occam , que nous préférons un modèle simple à un modèle compliqué.

Vous pouvez consulter les documents suivants:

Anderson, D. et Burnham, K. (2006). Mythes et malentendus AIC.

Burnham, KP et Anderson, DR (2004). Inférence multimodèle. Comprendre AIC et BIC dans la sélection de modèle. Sociological Methods & Research, 33 (2), 261-304.

et ces fils:

Quelle est la différence entre «vraisemblance» et «probabilité»?

Y a-t-il une raison de préférer l'AIC ou le BIC à l'autre?

— Tim
source

sites.warnercnr.colostate.edu/anderson/wp-content/uploads/sites/…

— kpierce8

3

L'AIC est fortement lié au généralisé ("pseudo") . J'aime énoncer AIC sur l' échelle du rapport de vraisemblance bien que ce ne soit pas traditionnel, c'est-à-dire AIC retraité = df L'une des mesures généralisées est . Même si nous ne savons toujours pas exactement quelle taille doit être pour que le modèle soit considéré comme hautement discriminant, est au moins sans unité. $R^2$ $\chi^2$ $\chi^{2} - 2\times$ $R^2$ $1 - \exp(-\chi^{2} / n)$ $R^2$ $R^2$

— Frank Harrell
source

1

Cela semble vraiment vraiment très faible. Qu'est-ce que j'oublie ici?

Des quantités telles que l'AIC, qui impliquent l'utilisation de la log-vraisemblance, ne sont significatives que par rapport à d'autres de ces quantités . N'oubliez pas que la fonction de vraisemblance n'est définie que jusqu'à une constante de mise à l'échelle, elle peut donc être augmentée ou réduite à volonté. Par conséquent, la log-vraisemblance n'est définie que jusqu'à une constante de position, et elle peut être augmentée ou diminuée à volonté. Cela vaut également pour l'AIC, car cette quantité n'est que la log-vraisemblance, décalée d'une pénalité sur le nombre de paramètres. C'est la raison pour laquelle il est dit que l'AIC ne doit être utilisé que pour comparer des modèles.

Dans les routines informatiques, la fonction de vraisemblance est généralement définie directement à partir de la densité d'échantillonnage sans supprimer les constantes inutiles, dans ce cas, le problème de mise à l'échelle peut ne pas être un facteur. Dans le billet R Bloggers auquel vous vous connectez, données ont été utilisées dans la régression logistique. La log-vraisemblance des chiffres que vous donnez est: $n=800$

\hat{ℓ} = (727.9 - 2 \times 8) / (- 2) = - 355.95.

$\hat{\ell} = (727.9-2 \times 8)/(-2) = -355.95.$

Ainsi, la log-vraisemblance moyenne par point de données est , ce qui correspond à une valeur de vraisemblance de pour un seul point de données. Ce n'est pas particulièrement bas et ne devrait pas être une cause d'alarme. $\hat{\ell}/n = -0.4449375$ $0.6408643$

— Ben - Réintègre Monica
source

0

Vous avez correctement souligné que si vous recalculez la probabilité, en utilisant l'AIC rapporté par R, vous obtenez des probabilités ridiculement faibles. La raison en est que la valeur de l'AIC rapportée par R (appelez-la AICrep) n'est pas la vraie AIC (AICtrue). AICrep et AICtrue diffèrent par une constante qui dépend des données mesurées mais qui est indépendante du modèle choisi. Par conséquent, une probabilité recalculée à partir d'AICrep sera incorrecte. Ce sont les différences dans les AIC, lorsque différents modèles sont utilisés pour ajuster les mêmes données, qui sont utiles pour sélectionner le meilleur modèle.

— W. Rose
source