Cet article a été mis à jour beaucoup. En haut, vous pouvez voir les mises à jour des liens. Ci-dessous, variations de la réponse initiale. Pour la version courte: les succès des réseaux de neurones convolutionnels et l’apprentissage en profondeur ressemblent à une sorte de révolution galiléenne. Du point de vue pratique, le traitement du signal classique ou la vision par ordinateur sont morts… à condition de disposer de suffisamment de données étiquetées, de se soucier peu des défaillances évidentes de la classification ( défauts profonds ), de disposer d'une énergie infinie pour effectuer des tests sans se soucier de l'empreinte carbone , et ne vous inquiétez pas des explications rationnelles. Pour les autres, cela nous a amené à repenser tout ce que nous faisions auparavant: extraction de fonctionnalités, optimisation (cf. mon collègue J.-C. Pesquet, travail sur les structures de réseaux neuronaux profonds Résoudre les inégalités variationnelles), invariance, quantification, etc. Et de cette recherche émergent des recherches vraiment intéressantes, en rattrapant, espérons-le, des principes bien ancrés et des performances similaires.
Liens mis à jour:
Nous introduisons des exemples contradictoires naturels - des exemples réels, non modifiés et naturels, qui entraînent une dégradation significative de la précision du classificateur. Nous sélectionnons 7 500 exemples contradictoires naturels et les publions dans un ensemble de tests du classificateur ImageNet appelé ImageNet-A. Cet ensemble de données constitue un nouveau moyen de mesurer la robustesse du classifieur. Comme pour les exemples l_p contradictoires, les exemples ImageNet-A sont transférés avec succès vers des classificateurs non vus ou des classificateurs à zone noire. Par exemple, sur ImageNet-A, un DenseNet-121 obtient une précision d’environ 2%, soit une perte de précision d’environ 90%. La récupération de cette précision n’est pas simple, car les exemples ImageNet-A exploitent les failles profondes des classificateurs actuels, notamment leur dépendance excessive à la couleur, à la texture et aux signaux de fond. Nous observons que les techniques d’entraînement populaires pour améliorer la robustesse ont peu d’effet, mais nous montrons que certains changements architecturaux peuvent améliorer la robustesse des exemples contradictoires naturels. Des recherches futures sont nécessaires pour permettre une généralisation robuste à cet ensemble de tests ImageNet.
- 2019/05/03: Apprendre en profondeur: dernière frontière pour le traitement du signal et l'analyse des séries chronologiques? "Dans cet article, je souhaite montrer plusieurs domaines dans lesquels les signaux ou les séries chronologiques sont essentiels"
- 2018/04/23: Je reviens à peine de la conférence internationale annuelle sur l'acoustique, le traitement de la parole et du signal, ICASSP 2018 . J'ai été émerveillé par la quantité d'articles qui s'appuyaient quelque peu sur l'apprentissage en profondeur, les réseaux profonds, etc. Deux séances sur quatre (de Alex Acero et Yann LeCun) étaient consacrées à ce sujet. En même temps, la plupart des chercheurs que j'ai rencontrés plaisantaient un peu à ce sujet ("Désolé, mon affiche est sur des banques de filtres, pas sur Deep Learning", "je ne suis pas dans ça, j'ai de petits jeux de données"), ou s'interrogeaient sur le fait de gagner 0,5% sur les grands défis et de perdre l'intérêt de la modélisation de la physique ou des statistiques antérieures.
- 2018/01/14: Un filet profond peut-il voir un chat? , de "chat abstrait" à "meilleur chat" inversé, dessiné, etc. et résultats surprenants sur des croquis
- 2017/11/02: ajout de références aux transformations / réseaux de diffusion
- 2017/10/21: Examen des réseaux de neurones convolutionnels pour résoudre des problèmes inverses en imagerie
- Apprendre en profondeur et ses applications dans le traitement du signal et de l'information , Magazine IEEE Signal Processing, janvier 2011
Vous trouverez en bas des références d’apprentissage approfondi sur le traitement standard du signal et des images. Michael Elad vient d'écrire Deep, Deep Trouble: Impact de Deep Learning sur le traitement des images, les mathématiques et l'humanité (SIAM News, 2017/05), extrait:
Puis les réseaux de neurones sont revenus soudainement et avec vengeance.
Cette tribune est intéressante, car elle montre un passage du "traitement d'image" traditionnel, essayant de modéliser / comprendre les données, à un domaine de correction, sans trop de perspicacité.
Ce domaine évolue assez vite. Cela ne signifie pas qu'il évolue dans une direction intentionnelle ou constante. Ni vrai ni faux. Mais ce matin, j'ai entendu le dicton suivant (ou est-ce une blague?):
un mauvais algorithme avec un énorme ensemble de données peut faire mieux qu'un algorithme intelligent avec des données pauce .
Voici mon très bref essai: l'apprentissage en profondeur peut fournir des résultats à la pointe de la technologie, mais on ne comprend pas toujours pourquoi , et une partie de notre travail de scientifique reste à expliquer pourquoi les choses fonctionnent, quel est le contenu d'une donnée , etc.
Un apprentissage en profondeur nécessite des bases de données (énormes) bien étiquetées. Chaque fois que vous faites du bricolage sur des images uniques ou singulières (c'est-à-dire sans une énorme base de données), en particulier dans des endroits où il est peu probable que des "images avec balises basées sur l'utilisateur" soient fournies gratuitement (dans la série complémentaire de " chats amusants jouant à des jeux et à des visages ") , vous pouvez vous en tenir au traitement traditionnel des images pendant un certain temps et dans un but lucratif. Un récent tweet résume que:
(beaucoup de) données étiquetées (sans vars manquants); l'exigence est un élément décisif (et inutile) pour de nombreux domaines
S'ils sont tués (ce dont je doute fort à court terme), ils ne sont pas encore morts. Donc, toute compétence que vous acquérez dans le traitement du signal, l'analyse d'images, la vision par ordinateur vous aidera dans le futur. Ceci est par exemple discuté dans l'article de blog: Avons-nous oublié la géométrie dans la vision par ordinateur? par Alex Kendall:
L'apprentissage en profondeur a révolutionné la vision par ordinateur. Aujourd'hui, il n'y a pas beaucoup de problèmes pour lesquels la solution la plus performante ne repose pas sur un modèle d'apprentissage approfondi de bout en bout. En particulier, les réseaux de neurones convolutifs sont populaires car ils ont tendance à bien fonctionner tout de suite. Cependant, ces modèles sont en grande partie de grandes boîtes noires. Il y a beaucoup de choses que nous ne comprenons pas à leur sujet.
Un exemple concret peut être le suivant: quelques images très sombres (surveillance, par exemple) du même endroit, devant être évaluées si une d’entre elles contient un changement spécifique qui devrait être détecté, relèvent potentiellement du traitement traditionnel de l’image, Deep Learning (à partir d'aujourd'hui).
D'un autre côté, aussi fructueux que soit Deep Learning à grande échelle, cela peut conduire à la classification erronée de petits ensembles de données, qui pourraient être inoffensifs "en moyenne" pour certaines applications. Deux images qui diffèrent légèrement de l'œil humain pourraient être classées différemment via DL. Ou des images aléatoires pourraient être définies pour une classe spécifique. Voir, par exemple, les réseaux neuronaux profonds sont facilement dupés: prévisions de grande confiance pour des images non reconnaissables (Nguyen A, Yosinski, Clune J. Proc. Vision par ordinateur et Pattern Recognition 2015) ou l' apprentissage en profondeur présente-t-il des défauts profonds? , sur les négatifs contradictoires:
Le réseau peut mal classer une image après que les chercheurs ont appliqué une certaine perturbation imperceptible. Les perturbations sont trouvées en ajustant les valeurs de pixel pour maximiser l'erreur de prédiction.
Avec tout le respect que vous devez à "Deep Learning", pensez à "une production de masse répondant à un comportement enregistré, connu, validable en masse ou prévu" par opposition à un "artisanat singulier". Aucune n’est meilleure (encore) dans une seule échelle d’indice. Les deux peuvent avoir à coexister pendant un moment.
Cependant, l'apprentissage en profondeur imprègne de nombreux domaines nouveaux, comme décrit dans les références ci-dessous.
Heureusement, certaines personnes essaient de trouver une justification mathématique à la base de l'apprentissage en profondeur, comme par exemple les réseaux de diffusion ou les transformations proposées par Stéphane Mallat et ses co-auteurs, voir le site de l'ENS pour la diffusion . Analyse harmonique et opérateurs non linéaires, fonctions de Lipschitz, invariance de translation / rotation, convient mieux au traitement moyen du signal. Voir par exemple Comprendre les réseaux convolutionnels profonds .