Pourquoi le critère d'information Akaike n'est-il pas davantage utilisé dans l'apprentissage automatique?

Je suis juste tombé sur "critère d'information Akaike", et j'ai remarqué cette grande quantité de littérature sur la sélection des modèles (aussi des choses comme BIC semblent exister).

Pourquoi les méthodes modernes d'apprentissage automatique ne profitent-elles pas de ces critères de sélection des modèles BIC et AIC?

— écho
source

parce que personne ne calcule les probabilités?

— Aksakal

Qu'entendez-vous par «méthodes contemporaines d'apprentissage automatique»? Pour autant que j'utilise AIC et BIC sont fréquemment utilisés.

— Ferdi

Aussi pourquoi le -1? Rappelez-vous qu'il n'y a pas de questions stupides - chaque question essaie de faire la lumière sur l'univers

— faire écho

@echo: Je n'ai pas downvote, mais je pense que votre question serait améliorée si vous pouviez approvisionner / soutenir la revendication principale (que les méthodes d'apprentissage automatique tirent parti de ces critères de sélection des modèles BIC et AIC)

— user603

@Aksakal Merci. Je pense qu'il vaut mieux que des questions construites autour d'une revendication générale puissent alimenter cette revendication. Je veux dire en règle générale.

— user603

AIC et BIC sont utilisés, par exemple dans la régression pas à pas. Ils font en fait partie d'une classe plus large d '"heuristiques", qui sont également utilisées. Par exemple, le DIC (Deviance Information Criterion) est souvent utilisé dans la sélection du modèle bayésien.

Cependant, ce sont essentiellement des "heuristiques". Bien qu'il puisse être démontré que l'AIC et le BIC convergent de manière asymptotique vers des approches de validation croisée (je pense que l'AIC va vers un CV avec abandon et BIC vers une autre approche, mais je ne suis pas sûr), ils sont connus pour sous-pénaliser et sur-pénaliser respectivement. C'est-à-dire qu'en utilisant AIC, vous obtiendrez souvent un modèle, ce qui est plus compliqué qu'il ne devrait l'être, alors qu'avec BIC, vous obtenez souvent un modèle trop simpliste.

Étant donné que les deux sont liés au CV, le CV est souvent un meilleur choix, qui ne souffre pas de ces problèmes.

Enfin, il y a la question du nombre de paramètres requis pour BIC et AIC. Avec des approximateurs de fonctions générales (par exemple KNN) sur des entrées à valeur réelle, il est possible de "masquer" des paramètres, c'est-à-dire de construire un nombre réel qui contient les mêmes informations que deux nombres réels (pensez par exemple à croiser les chiffres). Dans ce cas, quel est le nombre réel de paramètres? D'un autre côté, avec des modèles plus compliqués, vous pouvez avoir des contraintes sur vos paramètres, disons que vous ne pouvez ajuster que des paramètres tels que $\theta_1 > \theta_2$ (voir par exemple ici ). Ou vous pouvez ne pas être identifiable, auquel cas plusieurs valeurs des paramètres donnent en fait le même modèle. Dans tous ces cas, le simple comptage des paramètres ne donne pas une estimation appropriée.

Étant donné que de nombreux algorithmes d'apprentissage automatique contemporains présentent ces propriétés (c.-à-d. Approximation universelle, nombre de paramètres peu clair, non-identifiabilité), l'AIC et le BIC sont moins utiles pour ces modèles qu'ils ne le semblent à première vue.

MODIFIER :

Quelques points supplémentaires qui pourraient être clarifiés:

Il semble que j'ai eu tort de considérer la cartographie par entrelacement des chiffres comme une bijection entre $\mathbb{R}\rightarrow\mathbb{R}^N$ (voir ici ). Cependant, les détails de pourquoi ce n'est pas une bijection sont un peu difficiles à comprendre. Cependant, nous n'avons pas réellement besoin d'une bijection pour que cette idée fonctionne (une surjection suffit).
Selon la preuve de Cantor (1877), il doit y avoir une bijection entre $\mathbb{R}\rightarrow\mathbb{R}^N$ . Bien que cette bijection ne puisse pas être définie explicitement, son existence peut être prouvée (mais cela nécessite l'axiome de choix non prouvé). Cette bijection peut toujours être utilisée dans un modèle théorique (il n'est peut-être pas possible d'implémenter réellement ce modèle dans un ordinateur), pour décompresser un seul paramètre en un nombre arbitraire de paramètres.
Nous n'avons pas réellement besoin que la cartographie entre $\mathbb{R}\rightarrow\mathbb{R}^N$ soit une bijection. N'importe quelle fonction surjective $\mathbb{R}\rightarrow\mathbb{R}^N$ suffit pour décompresser plusieurs paramètres d'un seul. De telles surjections peuvent être démontrées comme des limites à une séquence d'autres fonctions (appelées courbes de remplissage d'espace , par exemple la courbe de Peano ).
Parce que ni la preuve de Cantor n'est constructive (elle prouve simplement l'existence de la bijection sans donner d'exemple), ni les courbes de remplissage d'espace (car elles n'existent que comme limites des objets constructifs et ne sont donc pas elles-mêmes constructives), l'argument I fait n'est qu'une preuve théorique. En théorie, nous pourrions simplement continuer à ajouter des paramètres à un modèle pour réduire le BIC en dessous de toute valeur souhaitée (sur l'ensemble d'apprentissage). Cependant, dans une implémentation de modèle réelle, nous devons approximer la courbe de remplissage d'espace, donc une erreur d'approximation peut nous interdire de le faire (je n'ai pas réellement testé cela).
Parce que tout cela nécessite l'axiome de choix, la preuve devient invalide si vous n'acceptez pas cet axiome (bien que la plupart des mathématiciens le fassent). Cela signifie qu'en mathématiques constructives, cela n'est peut-être pas possible, mais je ne sais pas quel rôle les mathématiques constructives jouent pour les statistiques.
$N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Cependant, ce n'est qu'un argument informel, je ne connais aucun traitement formel de cette notion de "complexité".

— LiKao
source

Vous avez envie de jouer sur ce post stats.stackexchange.com/questions/325129/… ? Je n'ai pas eu de chance avec ça depuis un moment.

— Skander H. - Rétablir Monica le

@LiKao Pouvez-vous citer des références sur les "techniques" des paramètres de masquage, comme le cas des chiffres qui se croisent.

— horaceT

@horaceT Malheureusement, je ne connais aucun article qui donne cet exemple. Dans les articles sur MDL, il y a la notion de "complexité fonctionnelle" (par exemple lpl.psy.ohio-state.edu/documents/MNP.pdf voir eq 10). Souvent, l'exemple est fait avec des paramètres contraints (par exemple researchgate.net/publication/… ). J'aime inverser l'exemple lorsque j'en discute et montrer qu'un seul paramètre complexe peut capturer plusieurs paramètres simples parce que je le trouve plus intuitif.

— LiKao

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$ . Donc pour tout modèle avec

N

$N$ paramètres, je peux utiliser

f_{1, N}

$f_{1,N}$ obtenir d'abord un

N

$N$ vecteur dimensionnel de mon seul paramètre, puis fournir ce vecteur comme paramètre à la

N

$N$ modèle de paramètres. Cela me donne un équivalent fonctionnel

1

$1$ modèle de paramètres. Cependant, l'adaptation de ce modèle serait au moins très compliquée.

— LiKao

@LiKao C'est assez fascinant. Veuillez faire référence à ladite preuve de "courbes de classement". J'ai pu voir que les paramètres contraints ont "moins" de degré de liberté. Naïvement, si f (x, y) = 0, y est juste une fonction de x; vous venez de mettre g (x) où y est. Ne pouvez-vous pas faire des choses similaires avec une optimisation contrainte.

— horaceT