Dans les domaines du traitement adaptatif du signal / apprentissage automatique, le deep learning (DL) est une méthodologie particulière dans laquelle nous pouvons former des machines à des représentations complexes.
Généralement, ils auront une formulation qui peut mapper votre entrée , jusqu'à l'objectif cible, , via une série d'opérations empilées hiérarchiquement (c'est de là que vient le `` profond ''). . Ces opérations sont généralement des opérations / projections linéaires ( ), suivies de non-linéarités ( ), comme ceci:XyWjeFje
y = fN( . . . F2( f1( xTW1) W2) . . . WN)
Maintenant, au sein de DL, il existe de nombreuses architectures différentes : une de ces architectures est connue sous le nom de réseau neuronal convolutif (CNN). Une autre architecture est connue sous le nom de perceptron multicouche (MLP), etc. Différentes architectures se prêtent à la résolution de différents types de problèmes.
Un MLP est peut-être l'un des types d'architectures DL les plus traditionnels que l'on puisse trouver, et c'est à ce moment-là que chaque élément d'une couche précédente est connecté à chaque élément de la couche suivante. Cela ressemble à ceci:
Dans les MLP, les matricies codent la transformation d'une couche à l'autre. (Via une matrice multiplier). Par exemple, si vous avez 10 neurones dans une couche connectés à 20 neurones de la suivante, alors vous aurez une matrice , qui mappera une entrée to an output , via: . Chaque colonne dans , code tous les bords allant de tous les éléments d'un calque à l' un des éléments du calque suivant.WjeW ∈ R10 x 20v ∈ R10 x 1u ∈ R1 x 20u = vTWW
Les MLP sont alors tombés en disgrâce, en partie parce qu'ils étaient difficiles à former. Bien qu'il existe de nombreuses raisons à ces difficultés, l'une d'entre elles était également due au fait que leurs connexions denses ne leur permettaient pas de s'adapter facilement à divers problèmes de vision par ordinateur. En d'autres termes, ils n'avaient pas d'équivalence de traduction intégrée. Cela signifiait que s'il y avait un signal dans une partie de l'image auquel ils devaient être sensibles, ils auraient besoin de réapprendre à y être sensibles si ce signal s'est déplacé. Cela a gaspillé la capacité du filet et la formation est donc devenue difficile.
C'est là que les CNN sont intervenus! Voici à quoi on ressemble:
Les CNN ont résolu le problème de traduction du signal, car ils convolueraient chaque signal d'entrée avec un détecteur (noyau) et seraient donc sensibles à la même caractéristique, mais cette fois partout. Dans ce cas, notre équation a toujours la même apparence, mais les matricies de poids sont en fait des matricules de toeplitz convolutionnelles . Le calcul est le même cependant. Wje
Il est courant de voir «CNN» faire référence à des réseaux où nous avons des couches convolutionnelles à travers le réseau, et des MLP à la toute fin, c'est donc une mise en garde à prendre en compte.