AIC et BIC sont utilisés, par exemple dans la régression pas à pas. Ils font en fait partie d'une classe plus large d '"heuristiques", qui sont également utilisées. Par exemple, le DIC (Deviance Information Criterion) est souvent utilisé dans la sélection du modèle bayésien.
Cependant, ce sont essentiellement des "heuristiques". Bien qu'il puisse être démontré que l'AIC et le BIC convergent de manière asymptotique vers des approches de validation croisée (je pense que l'AIC va vers un CV avec abandon et BIC vers une autre approche, mais je ne suis pas sûr), ils sont connus pour sous-pénaliser et sur-pénaliser respectivement. C'est-à-dire qu'en utilisant AIC, vous obtiendrez souvent un modèle, ce qui est plus compliqué qu'il ne devrait l'être, alors qu'avec BIC, vous obtenez souvent un modèle trop simpliste.
Étant donné que les deux sont liés au CV, le CV est souvent un meilleur choix, qui ne souffre pas de ces problèmes.
Enfin, il y a la question du nombre de paramètres requis pour BIC et AIC. Avec des approximateurs de fonctions générales (par exemple KNN) sur des entrées à valeur réelle, il est possible de "masquer" des paramètres, c'est-à-dire de construire un nombre réel qui contient les mêmes informations que deux nombres réels (pensez par exemple à croiser les chiffres). Dans ce cas, quel est le nombre réel de paramètres? D'un autre côté, avec des modèles plus compliqués, vous pouvez avoir des contraintes sur vos paramètres, disons que vous ne pouvez ajuster que des paramètres tels que θ1>θ2 (voir par exemple ici ). Ou vous pouvez ne pas être identifiable, auquel cas plusieurs valeurs des paramètres donnent en fait le même modèle. Dans tous ces cas, le simple comptage des paramètres ne donne pas une estimation appropriée.
Étant donné que de nombreux algorithmes d'apprentissage automatique contemporains présentent ces propriétés (c.-à-d. Approximation universelle, nombre de paramètres peu clair, non-identifiabilité), l'AIC et le BIC sont moins utiles pour ces modèles qu'ils ne le semblent à première vue.
MODIFIER :
Quelques points supplémentaires qui pourraient être clarifiés:
- Il semble que j'ai eu tort de considérer la cartographie par entrelacement des chiffres comme une bijection entre R→RN (voir ici ). Cependant, les détails de pourquoi ce n'est pas une bijection sont un peu difficiles à comprendre. Cependant, nous n'avons pas réellement besoin d'une bijection pour que cette idée fonctionne (une surjection suffit).
- Selon la preuve de Cantor (1877), il doit y avoir une bijection entre R→RN . Bien que cette bijection ne puisse pas être définie explicitement, son existence peut être prouvée (mais cela nécessite l'axiome de choix non prouvé). Cette bijection peut toujours être utilisée dans un modèle théorique (il n'est peut-être pas possible d'implémenter réellement ce modèle dans un ordinateur), pour décompresser un seul paramètre en un nombre arbitraire de paramètres.
- Nous n'avons pas réellement besoin que la cartographie entre R→RN soit une bijection. N'importe quelle fonction surjective R→RN suffit pour décompresser plusieurs paramètres d'un seul. De telles surjections peuvent être démontrées comme des limites à une séquence d'autres fonctions (appelées courbes de remplissage d'espace , par exemple la courbe de Peano ).
- Parce que ni la preuve de Cantor n'est constructive (elle prouve simplement l'existence de la bijection sans donner d'exemple), ni les courbes de remplissage d'espace (car elles n'existent que comme limites des objets constructifs et ne sont donc pas elles-mêmes constructives), l'argument I fait n'est qu'une preuve théorique. En théorie, nous pourrions simplement continuer à ajouter des paramètres à un modèle pour réduire le BIC en dessous de toute valeur souhaitée (sur l'ensemble d'apprentissage). Cependant, dans une implémentation de modèle réelle, nous devons approximer la courbe de remplissage d'espace, donc une erreur d'approximation peut nous interdire de le faire (je n'ai pas réellement testé cela).
- Parce que tout cela nécessite l'axiome de choix, la preuve devient invalide si vous n'acceptez pas cet axiome (bien que la plupart des mathématiciens le fassent). Cela signifie qu'en mathématiques constructives, cela n'est peut-être pas possible, mais je ne sais pas quel rôle les mathématiques constructives jouent pour les statistiques.
- NRN+1RNRNRN. Cependant, ce n'est qu'un argument informel, je ne connais aucun traitement formel de cette notion de "complexité".