Je mets en garde contre toute attente d'une forte ressemblance entre les réseaux de neurones biologiques et artificiels. Je pense que le nom de "réseaux de neurones" est un peu dangereux, car il incite les gens à s’attendre à ce que les processus neurologiques et l’apprentissage automatique soient les mêmes. Les différences entre les réseaux de neurones biologiques et artificiels l'emportent sur les similitudes.
À titre d’exemple, vous pouvez également inverser le raisonnement du message original. Vous pouvez former un réseau de neurones pour apprendre à reconnaître les voitures l’après-midi, à condition que vous disposiez d’un ordinateur raisonnablement rapide et de suffisamment de données d’entraînement. Vous pouvez en faire une tâche binaire (voiture / pas de voiture) ou multi-classe (voiture / tram / vélo / avion / bateau) tout en ayant confiance en un niveau de réussite élevé.
En revanche, je ne m'attendrais pas à ce qu'un enfant puisse choisir une voiture le jour - ou même la semaine - qui suit sa naissance, même après avoir vu "tant d'exemples de formation". Quelque chose est évidemment différent entre un enfant de deux ans et un nourrisson qui explique la différence de capacité d'apprentissage, alors qu'un réseau neuronal de classification d'images à la vanille est parfaitement capable de détecter la classification d'objets immédiatement après la "naissance". Je pense qu'il y a deux différences importantes: (1) les volumes relatifs de données de formation disponibles et (2) un mécanisme d'autoapprentissage qui se développe avec le temps en raison de l'abondance des données de formation.
Le post original expose deux questions. Le titre et le corps de la question demandent pourquoi les réseaux de neurones ont besoin de "autant d'exemples". Par rapport à l'expérience d'un enfant, les réseaux de neurones formés à l'aide de points de repère d'image courants contiennent relativement peu de données.
Je vais reformuler la question dans le titre pour
"Comment la formation d'un réseau de neurones pour un repère d'image commun se compare-t-elle à l'expérience d'apprentissage d'un enfant?"
À des fins de comparaison, je considérerai les données de l'ICRA-10, car il s'agit d'un repère d'image commun. La partie étiquetée est composée de 10 classes d'images avec 6000 images par classe. Chaque image est 32x32 pixels. Si vous empiliez d'une manière ou d'une autre les images étiquetées de CIFAR-10 et réalisiez une vidéo standard à 48 ips, vous disposeriez d'environ 20 minutes.
Un enfant de 2 ans qui observe le monde pendant 12 heures par jour dispose d'environ 263 000 minutes (plus de 4 000 heures) d'observations directes du monde, y compris les réactions des adultes (étiquettes). (Ce ne sont que des chiffres approximatifs - je ne sais pas combien de minutes un enfant typique de deux ans a passé à observer le monde.) De plus, l'enfant sera exposé à de très nombreux objets au-delà des 10 classes qui composent l'ICRA- dix.
Donc, il y a quelques choses en jeu. Premièrement, l'enfant est exposé à plus de données et à une source de données plus variée que le modèle CIFAR-10. La diversité et le volume des données sont bien reconnus comme prérequis pour les modèles robustes en général. Dans cette optique, il n’est pas surprenant qu’un réseau de neurones soit pire que l’enfant dans la mesure où il s’acquitte de cette tâche, puisqu’un réseau de neurones formé sur CIFAR-10 manque cruellement de données d’entraînement par rapport à son fils de deux ans. La résolution d'image disponible pour un enfant est meilleure que celle des images CIFAR-10 32 x 32; l'enfant est ainsi en mesure d'apprendre des informations sur les détails les plus fins des objets.
La comparaison CIFAR-10 à deux ans n’est pas parfaite, car le modèle CIFAR-10 sera probablement entraîné avec plusieurs passages sur les mêmes images statiques, tandis que l’enfant verra, à l’aide de la vision binoculaire, comment les objets sont disposés en trois. - monde dimensionnel en se déplaçant et avec différentes conditions d'éclairage et perspectives sur les mêmes objets.
L'anecdote à propos de l'enfant d'OP implique une deuxième question,
"Comment les réseaux de neurones peuvent-ils s'auto-enseigner?"
Un enfant est doué d'un certain talent pour l'auto-apprentissage, de sorte que de nouvelles catégories d'objets puissent être ajoutées au fil du temps sans qu'il soit nécessaire de tout recommencer à zéro.
La remarque d'OP sur l' apprentissage par transfert identifie un type d'adaptation de modèle dans le contexte de l'apprentissage automatique.
Dans leurs commentaires, d’autres utilisateurs ont souligné que l’apprentissage en une seule étape * est un autre domaine de recherche de l’apprentissage automatique.
De plus, l' apprentissage par renforcement aborde les modèles d'auto-apprentissage sous un angle différent, en permettant essentiellement aux robots de mener des expériences d'essais et d'erreurs afin de trouver les meilleures stratégies pour résoudre des problèmes spécifiques (par exemple, jouer aux échecs).
Il est probablement vrai que ces trois paradigmes d'apprentissage automatique ont pour objectif d'améliorer la façon dont les machines s'adaptent aux nouvelles tâches de vision par ordinateur. L’adaptation rapide de modèles d’apprentissage automatique à de nouvelles tâches est un domaine de recherche actif. Cependant, étant donné que les objectifs pratiques de ces projets (identifier de nouveaux cas de logiciels malveillants, reconnaître les imposteurs dans les photos de passeport, indexer Internet) et les critères de réussite diffèrent des objectifs d'un enfant apprenant le monde, et du fait que un ordinateur utilisant les mathématiques et l’autre étant fait en matière organique en utilisant la chimie, les comparaisons directes entre les deux resteront lourdes.
En passant, il serait intéressant d'étudier comment inverser le problème de l'ICRA-10 et de former un réseau de neurones à la reconnaissance de 6000 objets à partir de 10 exemples de chaque. Mais même cela ne serait pas une comparaison juste avec un enfant de 2 ans, car il y aurait toujours un écart important dans le volume total, la diversité et la résolution des données de formation.
* Nous ne disposons pas actuellement de balises pour un apprentissage ponctuel ou pour un apprentissage limité.