Quelles sont les alternatives à la dimension VC pour mesurer la complexité des réseaux de neurones?

J'ai rencontré quelques moyens de base pour mesurer la complexité des réseaux de neurones:

Naïf et informel: comptez le nombre de neurones, de neurones cachés, de couches ou de couches cachées
Dimension VC (Eduardo D. Sontag [1998] "Dimension VC des réseaux de neurones" [ pdf ].)
Une mesure de la complexité de calcul $TC^0_d$ granulaire et asymptotique par équivalence à .

Existe-t-il d'autres alternatives?

Il est préférable:

Si la métrique de complexité pouvait être utilisée pour mesurer des réseaux de neurones à partir de différents paradigmes (pour mesurer le backprop, les réseaux neuronaux dynamiques, la corrélation en cascade, etc.) à la même échelle. Par exemple, la dimension VC peut être utilisée pour différents types sur les réseaux (ou même des choses autres que les réseaux de neurones) tandis que le nombre de neurones n'est utile qu'entre des modèles très spécifiques où la fonction d'activation, les signaux (sommes de base vs pointes) et autres les propriétés du réseau sont les mêmes.
S'il a de belles correspondances avec des mesures standard de la complexité des fonctions apprenables par le réseau
S'il est facile de calculer la métrique sur des réseaux spécifiques (ce dernier n'est pas un must, cependant.)

Remarques

Cette question est basée sur une question plus générale sur CogSci.SE.

— Artem Kaznatcheev
source

La complexité ne devrait-elle pas également dépendre de l'algorithme d'apprentissage? La dimension VC est généralement appliquée aux méthodes avec des fonctions de perte convexe. Si vous avez une perte non convexe, vous pourriez vous retrouver dans la situation où votre modèle serait capable de séparer certains points mais votre algorithme d'apprentissage ne trouverait jamais cette solution. C'est pourquoi je pense qu'il devrait être assez difficile d'avoir des limites en utilisant la structure du réseau. Je suis d'accord avec @tdc que l'erreur de généralisation est la voie à suivre. L'article de Vapnik sur la théorie de l'apprentissage statistique pourrait être un bon endroit pour commencer à en apprendre davantage à ce sujet.

— Andreas Mueller

Réponses:

Vous voudrez peut-être jeter un œil à l'article "(Not) Bounding the True Error de John Langford & Rich Caruana (NIPS, 2001)

Le résumé déclare:

Nous présentons une nouvelle approche pour limiter le taux d'erreur réel d'un classificateur à valeur continue basé sur des limites PAC-Bayes. La méthode construit d'abord une distribution sur des classificateurs en déterminant la sensibilité de chaque paramètre du modèle au bruit. Le véritable taux d'erreur du classifieur stochastique trouvé avec l'analyse de sensibilité peut alors être étroitement limité en utilisant une limite PAC-Bayes. Dans cet article, nous démontrons la méthode sur les réseaux de neurones artificiels avec des résultats d'une amélioration de l'ordre de grandeur de 2 3 par rapport aux meilleures limites du réseau neuronal déterministe.

Ils montrent que vous pouvez appliquer des limites de style PAC-Bayes aux réseaux de neurones stochastiques. Cependant, l'analyse ne s'applique qu'aux réseaux neuronaux à action directe à 2 couches avec une fonction de transfert sigmoïde. Dans ce cas, le terme de complexité ne dépend que du nombre de nœuds et de la variance des poids. Ils montrent que pour ce paramètre, la limite prédit efficacement le surentraînement. Malheureusement, cela ne touche pas vraiment vos propriétés "préférées"!

— tdc
source

+1 qui a l'air cool - merci, je vais y jeter un œil. Mais je suis d'accord qu'il ne correspond à aucune des propriétés préférées et à première vue ne semble pas vraiment mesurer la complexité du réseau autant que ses performances ... mais je suppose que celles-ci sont inséparables.

— Artem Kaznatcheev le

Il s'agit d'une erreur de généralisation . Les limites créées ont généralement un terme basé sur l'erreur d'apprentissage et un terme de pénalité basé sur la complexité du modèle. Tout ce qui vous intéresse, c'est le terme de complexité, mais ce sera un ingrédient dans presque toutes les limites. Cette vidéo l' explique mieux que moi!

— tdc

pense que cette direction n'est pas correcte. l'erreur est très différente de la complexité du réseau. bien que la théorie existante puisse brouiller les deux. un exemple simple est le sur-ajustement où l'erreur est faible mais la complexité est élevée. aussi, l'erreur peut se comporter de manière contre-intuitive par rapport à la complexité. comme le biais. il semble qu'un petit réseau puisse sous-estimer l'erreur. etcetera

@vzn mais l'erreur de généralisation est l'erreur sur les données futures - c'est-à-dire que si vous avez une faible erreur d'entraînement et une complexité élevée, votre limite d'erreur sera lâche.

— tdc

En outre, vous pourriez également être intéressé par le travail sur la dimension fracassante réalisé par le professeur Peter Bartlett. Voici une introduction à l'analyse de la complexité du réseau neuronal, dans un article de l'IEEE de 1998: La complexité de l'échantillon de la classification des modèles avec les réseaux neuronaux: la taille des poids est plus importante que la taille du réseau (Bartlett 1998) [ http: //ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=661502]

— Shaun Singh
source