Les réseaux convolutifs (CNN) reposent sur une convolution mathématique (par exemple des convolutions 2D ou 3D), qui est couramment utilisée pour le traitement du signal. Les images sont un type de signal, et la convolution peut également être utilisée sur le son, les vibrations, etc. Ainsi, en principe, les CNN peuvent trouver des applications pour n'importe quel signal, et probablement plus.
En pratique, il existe déjà des travaux sur la PNL (comme mentionné par Matthew Graves), où certaines personnes traitent du texte avec des CNN plutôt que des réseaux récursifs. Certains autres travaux s'appliquent au traitement du son (aucune référence ici, mais j'ai encore un travail inédit en cours).
Contenu original: En réponse à la question du titre d'origine, qui a changé maintenant. Peut-être besoin de supprimer celui-ci .
La recherche sur les réseaux contradictoires (et connexes) montre que même les réseaux profonds peuvent facilement être dupés , les amenant à voir un chien (ou tout autre objet) dans ce qui semble être un bruit aléatoire quand un humain le regarde (l'article a des exemples clairs).
Un autre problème est le pouvoir de généralisation d'un réseau de neurones. Les filets convolutifs ont étonné le monde avec leur capacité à généraliser bien mieux que d'autres techniques. Mais si le réseau est uniquement alimenté d'images de chats, il ne reconnaîtra que les chats (et verra probablement des chats partout, comme par les résultats du réseau contradictoire). En d'autres termes, même les CN ont du mal à généraliser trop loin au - delà de ce qu'ils ont appris.
La limite de reconnaissance est difficile à définir avec précision. Je dirais simplement que la diversité des données d'apprentissage repousse les limites (je suppose que des détails supplémentaires devraient conduire à un lieu de discussion plus approprié).