La formule de la dimension Vapnik – Chervonenkis (VC) pour les réseaux de neurones va de à , avec dans le pire des cas, où est le nombre d'arêtes et est le nombre de nœuds. Le nombre d'échantillons d'apprentissage nécessaires pour avoir une garantie forte de généralisation est linéaire avec la dimension VC.
Cela signifie que pour un réseau comportant des milliards d'arêtes, comme dans le cas de modèles d'apprentissage en profondeur réussis, l'ensemble de données de formation a besoin de milliards d'échantillons d'apprentissage dans le meilleur des cas, voire de quadrillions dans le pire des cas. Les plus grands ensembles d’entraînement ont actuellement une centaine de milliards d’échantillons. Comme il n’ya pas assez de données de formation, il est peu probable que les modèles d’apprentissage en profondeur se généralisent. Au lieu de cela, ils sur-utilisent les données de formation. Cela signifie que les modèles ne fonctionneront pas bien avec des données différentes des données d'apprentissage, ce qui est une propriété indésirable pour l'apprentissage automatique.
Étant donné l’incapacité de l’apprentissage en profondeur à généraliser, selon l’analyse dimensionnelle par VC, pourquoi les résultats de l’apprentissage en profondeur sont-ils si prometteurs? Le simple fait d’avoir une précision élevée sur certains jeux de données ne signifie pas grand chose en soi. Y a-t-il quelque chose de spécial dans les architectures d'apprentissage en profondeur qui réduit considérablement la dimension VC?
Si vous pensez que l'analyse de la dimension VC n'est pas pertinente, veuillez fournir des preuves / explications selon lesquelles l'apprentissage en profondeur est en train de généraliser et de ne pas sur-adapter. Par exemple, a-t-il un bon rappel ET une précision, ou juste un bon rappel? Le rappel à 100% est trivial à atteindre, de même que la précision à 100%. Obtenir les deux près de 100% est très difficile.
À titre d’exemple contraire, il est prouvé que l’apprentissage en profondeur est un processus excessif. Un modèle overfit est facile à tromper, car il intègre un bruit déterministe / stochastique. Voir l'image suivante pour un exemple de surajustement.
Consultez également les réponses les moins bien notées à cette question pour comprendre les problèmes posés par un modèle de surajustement malgré une bonne précision des données de test.
Certains ont répondu que la régularisation résout le problème d’une grande dimension de capital-risque. Voir cette question pour une discussion plus approfondie.