Est-il possible que l'AIC et le BIC donnent des sélections de modèles totalement différentes?

J'effectue un modèle de régression de Poisson avec 1 variable de réponse et 6 covariables. La sélection du modèle à l'aide de l'AIC donne un modèle avec toutes les covariables ainsi que 6 termes d'interaction. Cependant, le BIC donne un modèle avec seulement 2 covariables et aucun terme d'interaction. Est-il possible que les deux critères, qui semblent très similaires, donnent des sélections de modèles totalement différentes?

— WBM
source

S'il n'était pas possible d'obtenir des recommandations de modèle différentes à partir des deux mesures, il n'y aurait pas deux mesures, nous en utiliserions toujours une.

— Gregor Thomas

Le mot «totalement différent» est difficile à interpréter lorsque les modèles sont le résultat d'un choix parmi un ensemble de paramètres discrets.

— BallpointBen

Réponses:

C'est possible en effet. Comme expliqué sur https://methodology.psu.edu/AIC-vs-BIC , "BIC pénalise plus lourdement la complexité du modèle. La seule façon dont ils devraient être en désaccord est quand AIC choisit un modèle plus grand que BIC."

Si votre objectif est d'identifier un bon modèle prédictif, vous devez utiliser l'AIC. Si votre objectif est d'identifier un bon modèle explicatif, vous devez utiliser le BIC. Rob Hyndman résume bien cette recommandation sur
https://robjhyndman.com/hyndsight/to-explain-or-predict/ :

"L'AIC est mieux adaptée à la sélection de modèles pour la prédiction car elle est asymptotiquement équivalente à une validation croisée avec sortie unique dans la régression, ou à une validation croisée en une étape dans les séries chronologiques. D'un autre côté, on pourrait soutenir que le BIC est mieux adapté à la sélection du modèle pour l'explication, car il est cohérent. "

La recommandation provient de l'article de Galit Shmueli «Expliquer ou prédire?», Statistical Science, 25 (3), 289-310 ( https://projecteuclid.org/euclid.ss/1294167961 ).

Addenda:

Il existe un troisième type de modélisation - la modélisation descriptive - mais je ne connais aucune référence sur laquelle de l'AIC ou du BIC convient le mieux pour identifier un modèle descriptif optimal. J'espère que les autres ici pourront apporter leur contribution.

— Isabella Ghement
source

« La seule façon de ne pas être d'accord, c'est quand AIC choisit un modèle plus grand que BIC. ”Techniquement, BIC pourrait choisir un modèle plus grand si , c'est-à-dire . Espérons que les échantillons de taille 7 ne posent pas trop de problème. : p

\ln n < 2

$\ln n < 2$

n \leq 7

$n \le 7$

— Dougal

Bon point! Avec une taille d'échantillon de 7 ou moins, j'imagine que la sélection du modèle est hors de la table. 😀

— Isabella Ghement

— Subhash C. Davar

@ subhashc.davar: Aucune réponse pour le moment - je suis tenté d'envoyer un courriel à Galit Shmueli et de lui demander ce qu'elle pense de cela.

— Isabella Ghement

Si nous comprenons le sens de «descriptif» et le prenons au sérieux, je ne suis pas sûr qu'il soit logique de parler d'identifier le modèle descriptif optimal.

— gung - Rétablir Monica

Réponse courte: oui, c'est très possible. Les deux appliquent des pénalités différentes en fonction du nombre de paramètres estimés (2k pour AIC vs ln (n) xk pour BIC, où k est le nombre de paramètres estimés et n est la taille de l'échantillon). Ainsi, si le gain de probabilité de l'ajout d'un paramètre est faible, BIC peut sélectionner différents modèles pour AIC. Cependant, cet effet dépend de la taille de l'échantillon.

— NatWH
source

serait bien de préciser que n est la taille de l'échantillon dans l'équation ci-dessus

— fabiob