AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Puis-je les utiliser indifféremment?


47

Dans. 34 de son PRNN, Brian Ripley, a déclaré que "Akaike (1974) a désigné l'AIC comme" un critère d'information "bien qu'il semble communément admis que le" A "signifie Akaike". Akaike (1974, p. 719) explique en introduisant la statistique AIC que

"IC stands for information criterion and A is added so that similar statistics, BIC, DIC
etc may follow".

Considérant cette citation comme une prédiction faite en 1974, il est intéressant de noter qu’en quatre ans seulement, deux types de statistiques BIC (Bayesian IC) avaient été proposés par Akaike (1977, 1978) et Schwarz (1978). Il a fallu Spiegelhalter et al. (2002) beaucoup plus de temps pour proposer DIC (Deviance IC). Akaike (1974) n'avait pas prédit l'apparition du critère de la CIC, mais il serait naïf de croire qu'il n'a jamais été envisagé. Il a été proposé par Carlos C. Rodriguez en 2005. (Notez que le CIC (Covariance Inflation Criterion) de R. Tibshirani et K. Knight est une chose différente.)

Je savais que l'EIC (IC empirique) avait été proposé par des gens de l'Université Monash vers 2003. Je viens de découvrir le critère d'information ciblée (FIC). Certains livres se réfèrent à Hannan et Quinn IC en tant que HIC (voir par exemple celui-ci ). Je sais qu’il devrait exister un CPG (IC généralisé) et je viens de découvrir le critère d’information (IIC). Il y a NIC, TIC et plus.

Je pense que je pourrais éventuellement couvrir le reste de l'alphabet, donc je ne demande pas où la séquence AIC, BIC, CIC, DIC, EIC, FIC, CPG, HIC, IIC, ... s'arrête, ou quelles lettres de l'alphabet ont n’a pas été utilisé ou a été utilisé au moins deux fois (par exemple, le E dans EIC peut signifier Extended ou Empirical). Ma question est plus simple et j'espère plus utile dans la pratique. Puis-je utiliser ces statistiques de manière interchangeable, en ignorant les hypothèses spécifiques sur lesquelles elles ont été dérivées, les situations spécifiques dans lesquelles elles étaient censées être applicables, etc.?

Burnham & Anderson (2001) ont en partie motivé cette question:

...the comparison of AIC and BIC model selection ought to be based on their performance 
properties such as mean square error for parameter estimation (includes prediction) and 
confidence interval coverage: tapering effects or not, goodness-of-fit issues, 
derivation of theory is irrelevant as it can be frequentist or Bayes. 

Le chapitre 7 de la monographie de Hyndman et al. Sur le lissage exponentiel semble suivre le conseil de la BA en ce qui concerne l’évaluation de la performance des cinq circuits intégrés alternatifs (AIC, BIC, AICc, HQIC, LEIC) dans la sélection du modèle le mieux prévu (mesuré). par une mesure d’erreur récemment proposée, appelée MASE), pour conclure que l’AIC était une meilleure alternative plus souvent. (Le HQIC a été signalé comme le meilleur sélecteur de modèle une seule fois.)

Je ne sais pas quel est l'utilité des exercices de recherche qui traitent implicitement tous les pays de la communauté de pays comme s'ils avaient été dérivés pour répondre à une même question sous des ensembles d'hypothèses équivalentes. En particulier, je ne sais pas en quoi il est utile d’enquêter sur la performance prédictive du critère cohérent pour déterminer l’ordre d’une autorégression (ce que Hannan et Quinn ont dérivé pour des séquences stationnaires ergodiques) en l’utilisant dans le contexte de la méthode exponentielle non stationnaire les modèles de lissage décrits et analysés dans la monographie de Hyndman et al. Est-ce que j'ai râté quelque chose?

Références:

Akaike, H. (1974), Nouveau regard sur l'identification du modèle statistique, IEEE Transactions on Automatic Control 19 (6), 716-723.

Akaike, H. (1977), Principe de maximisation de l'entropie, dans PR Krishnaiah, éd., Applications of statistics , Vol. 27, Amsterdam: Hollande du Nord, p. 27-41.

Akaike, H. (1978), Une analyse bayésienne de la procédure minimale de l'AIC, Annales de l'Institut de mathématique statistique 30 (1), 9-14.

Burnham, KP & Anderson, DR (2001) Informations de Kullback – Leibler servant de base à une inférence solide dans les études écologiques, Wildlife Research 28, 111-119

Hyndman, RJ, Koehler, Alb., Ord, JK et Snyder, RD Prévision avec lissage exponentiel: approche à espace d'états. New York: Springer, 2008

Ripley, BD Pattern Recognition et Neural Networks . Cambridge: Cambridge University Press, 1996

Schwarz, G. (1978), Estimation de la dimension d'un modèle, Annals of Statistics 6 (2), 461-464.

Spiegelhalter, DJ, Best, GN, Carlin, BP et van der Linde, A. (2002), Mesures bayésiennes de la complexité des modèles et t (avec discussion), Journal de la Royal Statistical Society. Série B (Méthodologie statistique) 64 (4), 583-639.


9
En conversation avec Findley et Parzen ( projecteuclid.org/download/pdf_1/euclid.ss/1177010133 ) Akaike a révélé qu'AIC avait été utilisée par une assistante de son programme Fortran. Les noms de variables tels que IC par défaut impliquent des quantités entières; un préfixe tel que A suffisait à indiquer au compilateur que la quantité était réelle. Bien que ne voulant pas dire "Akaike", il réalisa que cela signifiait aussi simplement "un". (Incidemment, bien que cette référence soit en quelque sorte un antidote à une histoire incorrecte, elle perpétue l'orthographe de Mallows comme étant celle de Mallow.)
Nick Cox

Cette question fait penser au "plan expérimental alphabétique": doe.soton.ac.uk/elearning/section3.6.jsp
kjetil b halvorsen

Réponses:


36

D'après ce que je comprends, AIC, DIC et WAIC estiment tous la même chose: la déviance attendue hors échantillon associée à un modèle. C’est aussi la même chose que les estimations de validation croisée. Dans Gelman et al. (2013), ils disent ceci explicitement:

La validation croisée est un moyen naturel d’estimer l’erreur de prédiction hors échantillon (voir Vehtari et Lampinen, 2002, pour une perspective bayésienne), mais les chercheurs ont toujours recherché des mesures alternatives, car la validation croisée nécessite des ajustements de modèle répétés et peut avoir des problèmes avec des données rares. Pour des raisons pratiques uniquement, il reste une place pour des corrections de biais simples telles que AIC (Akaike, 1973), DIC (Spiegelhalter, Best, Carlin et van der Linde, 2002, van der Linde, 2005) et, plus récemment, WAIC. (Watanabe, 2010), et tout cela peut être considéré comme une approximation de différentes versions de la validation croisée (Stone, 1977).

BIC estime quelque chose de différent, qui est lié à la longueur minimale de description. Gelman et al. dire:

Le BIC et ses variantes diffèrent des autres critères d’information considérés ici en étant motivés non pas par une estimation de l’ajustement prédictif, mais par l’objectif de l’approximation de la densité de probabilité marginale des données, p (y), dans le modèle, qui peut être utilisé pour: estimer les probabilités postérieures relatives dans un contexte de comparaison de modèles discrets.

Je ne sais rien des autres critères d’information que vous avez énumérés, malheureusement.

Pouvez-vous utiliser les critères d’information de type AIC de manière interchangeable? Les opinions peuvent différer, mais étant donné que l'AIC, la DIC, WAIC et la validation croisée estiment tous la même chose, alors oui, ils sont plus ou moins interchangeables. BIC est différent, comme indiqué ci-dessus. Je ne sais pas pour les autres.

Pourquoi en avoir plus d'un?

  • AIC fonctionne bien lorsque vous avez une estimation du maximum de vraisemblance et des a priori plats, mais n'a vraiment rien à dire sur les autres scénarios. La pénalité est également trop faible lorsque le nombre de paramètres est proche du nombre de points de données. AICc corrige excessivement pour cela, ce qui peut être bon ou mauvais selon votre perspective.

  • DIC utilise une pénalité plus faible si certaines parties du modèle sont fortement contraintes par des priorités (par exemple, dans certains modèles multiniveaux où les composantes de la variance sont estimées). C'est bien, car les paramètres fortement contraints ne constituent pas vraiment un degré de liberté complet. Malheureusement, les formules habituellement utilisées pour DIC supposent que la partie postérieure est essentiellement gaussienne (c’est-à-dire qu’elle est bien décrite par sa moyenne), ce qui permet d’obtenir des résultats étranges (par exemple des pénalités négatives).

  • WAIC utilise toute la densité postérieure de manière plus efficace que le DIC. Gelman et al. préférez-le bien que cela puisse être difficile à calculer dans certains cas.

  • La validation croisée ne repose sur aucune formule particulière, mais elle peut être prohibitive sur le plan des calculs pour de nombreux modèles.

À mon avis, la décision quant à l’un des critères de type AIC à utiliser dépend entièrement de ce type de problèmes pratiques, plutôt que d’une preuve mathématique selon laquelle l’un fera mieux que l’autre.

Références :

Gelman et al. Comprendre les critères d’information prédictive pour les modèles bayésiens. Disponible à l' adresse http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.295.3501&rep=rep1&type=pdf.


3
En plus de la référence, Gelman et al. Compréhension des critères d’information prédictive pour les modèles bayésiens, voir également l’article le plus récent Aki Vehtari, Andrew Gelman et Jonah Gabry (2016). Évaluation pratique du modèle bayésien à l'aide de la validation croisée "laissez un test" et de la méthode WAIC. Dans Statistics and Computing, doi: 10.1007 / s11222-016-9696-4. Préimpression arXiv arXiv: 1507.04544. arxiv.org/abs/1507.04544 Cet article montre également qu'une validation croisée fiable peut être calculée en un temps négligeable pour de nombreux modèles.
Aki Vehtari

4

"Interchangeable" est un mot trop fort. Ce sont tous des critères qui cherchent à comparer des modèles et à trouver un "meilleur" modèle, mais chacun définit le "meilleur" différemment et peut identifier différents modèles comme étant "meilleurs".


0

«Proposer un référendum». Juste pour voter! ;-) J'ai aimé la CAIC (Bozdogan, 1987) et le BIC uniquement à cause de ma pratique personnelle, car ces critères sont très pénalisants pour la complexité. Nous avons eu plus de parcimonie, mais j'ai toujours affiché la liste des bons modèles - delta 4-6 -8 (au lieu de 2). Lors de l’étude des paramètres (du fait que nous avons un «bon étirement des modèles candidats»), la moyenne MM (B & A) n’a souvent presque pas changé. Je suis un peu sceptique à la fois de l'AIC classique et de l'AICc (H & T, popularisé par B & A), car ils donnent souvent une "couche épaisse de la crème". ;-)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.