Quels composants modifiables d'un système d'apprentissage sont responsables de son succès ou de son échec? Quels changements les améliorent-ils? C'est ce qu'on a appelé le problème fondamental de l'attribution de crédit (Minsky, 1963). Il existe des méthodes générales d'attribution de crédit pour les résolveurs de problèmes universels qui sont optimales dans le temps dans divers sens théoriques (section 6.8). La présente enquête, cependant, se concentrera sur le sous-champ plus étroit, mais maintenant commercialement important, de l'apprentissage en profondeur (DL) dans les réseaux de neurones artificiels (NN).
Un réseau neuronal standard (NN) se compose de nombreux processeurs simples et connectés appelés neurones, chacun produisant une séquence d'activations à valeur réelle. Les neurones d'entrée sont activés par des capteurs percevant l'environnement, d'autres neurones sont activés par des connexions pondérées à partir de neurones précédemment actifs (détails dans la Sec. 2). Certains neurones peuvent influencer l'environnement en déclenchant des actions. L'apprentissage ou l'attribution de crédits consiste à trouver des poids qui font que le NN présente le comportement souhaité, comme conduire une voiture. En fonction du problème et de la façon dont les neurones sont connectés, un tel comportement peut nécessiter de longues chaînes causales d'étapes de calcul (Sec.3), où chaque étape transforme (souvent de manière non linéaire) l'activation globale du réseau. Le Deep Learning consiste à attribuer avec précision des crédits à de nombreuses étapes de ce type.
Les modèles peu profonds de type NN avec peu de telles étapes existent depuis de nombreuses décennies, voire des siècles (Sec. 5.1). Les modèles comportant plusieurs couches successives de neurones non linéaires remontent au moins aux années 1960 (section 5.3) et aux années 1970 (section 5.5). Une méthode efficace de descente de gradient pour l'apprentissage supervisé par l'enseignant (SL) dans des réseaux discrets et différenciables de profondeur arbitraire appelée rétropropagation (BP) a été développée dans les années 1960 et 1970, et appliquée aux NN en 1981 (Sec.5.5). La formation basée sur la BP des NN profonds avec de nombreuses couches, cependant, s'était révélée difficile en pratique à la fin des années 1980 (section 5.6) et était devenue un sujet de recherche explicite au début des années 1990 (section 5.9). DL est devenu pratiquement réalisable dans une certaine mesure grâce à l'aide de l'apprentissage non supervisé (UL), par exemple, Sec. 5.10 (1991), Sec. 5,15 (2006). Les années 1990 et 2000 ont également vu de nombreuses améliorations du DL purement supervisé (Sec. 5). Au cours du nouveau millénaire, les réseaux profonds ont finalement attiré une large attention, principalement en surpassant les méthodes alternatives d'apprentissage automatique telles que les machines à noyau (Vapnik, 1995; Scholkopf et al., 1998) dans de nombreuses applications importantes. En fait, depuis 2009, les NN profonds supervisés ont remporté de nombreux concours internationaux officiels de reconnaissance des formes (par exemple, sec. 5.17, 5.19, 5.21, 5.22), obtenant les premiers résultats de reconnaissance visuelle des formes surhumaines dans des domaines limités (sec. 5.19, 2011). Les NN profonds sont également devenus pertinents pour le domaine plus général de l'apprentissage par renforcement (RL) où il n'y a pas d'enseignant superviseur (Sec. 6). principalement en surpassant les méthodes alternatives d'apprentissage automatique telles que les machines à noyau (Vapnik, 1995; Scholkopf et al., 1998) dans de nombreuses applications importantes. En fait, depuis 2009, les NN profonds supervisés ont remporté de nombreux concours internationaux officiels de reconnaissance des formes (par exemple, sec. 5.17, 5.19, 5.21, 5.22), obtenant les premiers résultats de reconnaissance visuelle des formes surhumaines dans des domaines limités (sec. 5.19, 2011). Les NN profonds sont également devenus pertinents pour le domaine plus général de l'apprentissage par renforcement (RL) où il n'y a pas d'enseignant superviseur (Sec. 6). principalement en surpassant les méthodes alternatives d'apprentissage automatique telles que les machines à noyau (Vapnik, 1995; Scholkopf et al., 1998) dans de nombreuses applications importantes. En fait, depuis 2009, les NN profonds supervisés ont remporté de nombreux concours internationaux officiels de reconnaissance des formes (par exemple, sec. 5.17, 5.19, 5.21, 5.22), obtenant les premiers résultats de reconnaissance visuelle surhumaine dans des domaines limités (sec. 5.19, 2011). Les NN profonds sont également devenus pertinents pour le domaine plus général de l'apprentissage par renforcement (RL) où il n'y a pas d'enseignant superviseur (Sec. 6). l'obtention de la première reconnaissance de forme visuelle surhumaine entraîne des domaines limités (Sec. 5.19, 2011). Les NN profonds sont également devenus pertinents pour le domaine plus général de l'apprentissage par renforcement (RL) où il n'y a pas d'enseignant superviseur (Sec. 6). l'obtention de la première reconnaissance de forme visuelle surhumaine entraîne des domaines limités (Sec. 5.19, 2011). Les NN profonds sont également devenus pertinents pour le domaine plus général de l'apprentissage par renforcement (RL) où il n'y a pas d'enseignant superviseur (Sec. 6).
D'un autre côté, je ne suis pas sûr qu'il soit nécessairement rentable d'essayer de construire une taxonomie de compartiments mutuellement exclusifs pour les stratégies d'apprentissage automatique. Je pense que nous pouvons dire qu'il existe des perspectives à partir desquelles les modèles peuvent être considérés comme des réseaux de neurones. Je ne pense pas que cette perspective soit nécessairement la meilleure ou utile dans tous les contextes. Par exemple, je prévois toujours de désigner les forêts aléatoires et les arbres à gradient accru comme des «ensembles d'arbres» au lieu d'abstraire leurs distinctions et de les appeler «arbres de réseaux de neurones». De plus, Schmidhuber distingue les NN des machines à noyau - même si les machines à noyau ont des connexions avec les NN - lorsqu'il écrit: "Au cours du nouveau millénaire, les NN profonds ont finalement attiré une large attention, principalement en surpassant les méthodes alternatives d'apprentissage automatique telles que les machines à noyau ... dans de nombreuses applications importantes. "