D'après ce que je peux dire, il n'y a pas beaucoup de différence entre AIC et BIC. Ce sont à la fois des approximations pratiques sur le plan mathématique permettant de comparer efficacement les modèles. S'ils vous donnent différents "meilleurs" modèles, cela signifie probablement que vous avez une grande incertitude liée aux modèles, qu'il est plus important de craindre que de savoir si vous devez utiliser AIC ou BIC. Personnellement, j’aime mieux BIC, car il demande plus (moins) à un modèle s’il dispose de plus de données (moins) pour s’adapter à ses paramètres - un peu comme un enseignant qui demande un niveau de performance plus élevé (moins élevé) si son élève a plus (moins ) le temps d'apprendre sur le sujet. Pour moi, cela semble être la chose intuitive à faire. Mais je suis certain qu'il existe également des arguments tout aussi intuitifs et convaincants pour AIC, étant donné sa forme simple.
Maintenant, chaque fois que vous faites une approximation, il y aura sûrement des conditions lorsque ces approximations seront nulles. Cela se vérifie certainement pour AIC, où il existe de nombreux "ajustements" (AICc) pour tenir compte de certaines conditions qui rendent l’approximation initiale mauvaise. Ceci est également présent pour BIC, car il existe diverses autres méthodes plus exactes (mais toujours efficaces), telles que les approximations de Full Laplace à des mélanges de g-priors de Zellner (BIC est une approximation de la méthode d'approximation de Laplace pour les intégrales).
Un endroit où ils sont tous les deux fous est quand vous avez des informations préalables substantielles sur les paramètres dans un modèle donné. AIC et BIC pénalisent inutilement les modèles dans lesquels les paramètres sont partiellement connus par rapport aux modèles nécessitant une estimation des paramètres à partir des données.
P(D|M,A)P(M|D,A)MMA
Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best
Et ensuite, continuez d’affecter les mêmes modèles de probabilité (mêmes paramètres, mêmes données, mêmes approximations, etc.), je vais obtenir le même ensemble de valeurs BIC. Ce n'est qu'en attachant une signification unique à la lettre logique "M" que l'on se laisse entraîner dans des questions non pertinentes sur "le vrai modèle" (échos de "la vraie religion"). La seule chose qui "définit" M, ce sont les équations mathématiques qui l'utilisent dans leurs calculs - et il ne s'agit presque jamais d'une définition unique. Je pourrais également formuler une proposition de prédiction à propos de M ("le ième modèle donnera les meilleures prédictions"). Personnellement, je ne vois pas en quoi cela changerait les probabilités, et donc quel sera le bon ou le mauvais BIC (l'AIC aussi - bien que l'AIC soit basé sur une dérivation différente)
Et d' ailleurs, ce qui ne va pas avec l'énoncé Si le vrai modèle est dans l'ensemble je considère, alors il y a une probabilité de 57% qu'il est le modèle B . Cela me semble assez raisonnable, ou vous pourriez choisir une version plus "soft": il existe une probabilité de 57% que le modèle B soit le meilleur de l'ensemble considéré
Un dernier commentaire: je pense que vous trouverez autant d’opinions sur AIC / BIC qu’il ya de gens qui connaissent.