Géométrie et IA
Les matrices, cubes, couches, piles et hiérarchies sont ce que nous pourrions appeler précisément des topologies . Considérons la topologie dans ce contexte, la conception géométrique de niveau supérieur d'un système d'apprentissage.
À mesure que la complexité augmente, il est souvent utile de représenter ces topologies comme des structures de graphe orientées. Les diagrammes d'état et les travaux de Markov sur la théorie des jeux sont deux endroits où les graphiques dirigés sont couramment utilisés. Les graphiques dirigés ont des sommets (souvent visualisés comme des formes fermées) et des bords souvent visualisés comme des flèches reliant les formes.
Nous pouvons également représenter les GAN sous forme de graphique orienté, où la sortie de chaque filet entraîne la formation de l'autre de manière contradictoire. Les GAN ressemblent topologiquement à une bande de Möbius.
Nous ne pouvons pas découvrir de nouvelles conceptions et architectures sans comprendre non seulement les mathématiques de la convergence vers une solution optimale ou le suivi d'une solution, mais également les topologies de connexions réseau qui peuvent prendre en charge une telle convergence. C'est comme développer un processeur tout en imaginant ce dont un système d'exploitation aurait besoin avant d'écrire le système d'exploitation.
Pour avoir un aperçu des topologies que nous n'avons PAS ENCORE examinées, examinons d'abord celles qui l'ont été.
Première étape - Extrusion dans une deuxième dimension
Dans les années 1980, le succès a été obtenu avec l'extension de la conception originale du perceptron. Les chercheurs ont ajouté une deuxième dimension pour créer un réseau neuronal multicouche. Une convergence raisonnable a été obtenue par rétropropagation du gradient d'une fonction d'erreur à travers les gradients des fonctions d'activation atténués par les taux d'apprentissage et atténués avec d'autres méta-paramètres.
Étape deux - Ajout de dimensions au signal d'entrée discret
Nous voyons l'émergence de réseaux convolutifs basés sur des techniques de convolution d'images réglées manuellement, introduisant des dimensions à l'entrée du réseau: position verticale, composantes de couleur et cadre. Cette dernière dimension est essentielle au CGI, au remplacement du visage et à d'autres techniques morphologiques dans la réalisation de films contemporains. Sans cela, nous avons la génération d'images, la catégorisation et la suppression du bruit.
Troisième étape - Piles de réseaux
Nous voyons des piles de réseaux neuronaux émerger à la fin des années 1990, où la formation d'un réseau est supervisée par un autre. Il s'agit de l'introduction de couches conceptuelles, ni dans le sens de couches séquentielles de neurones ni dans le sens de couches de couleur dans une image. Ce type de superposition n'est pas non plus récursif. Cela ressemble plus au monde naturel où une structure est un organe dans un autre type de structure complètement différent.
Quatrième étape - Hiérarchies de réseaux
Nous voyons des hiérarchies de réseaux neuronaux apparaître fréquemment dans les recherches issues des années 2000 et du début des années 2010 (Laplacian et autres), qui poursuivent l'interaction entre les réseaux neuronaux et poursuivent l'analogie avec le cerveau des mammifères. Nous voyons maintenant une méta-structure, où des réseaux entiers deviennent des sommets dans un graphe orienté représentant une topologie.
Étape cinq% mdash; Départs de l'orientation cartésienne
Les arrangements répétitifs non cartésiens des cellules et les connexions entre elles ont commencé à émerger dans la littérature. Par exemple, Gauge Equivariant Convolutional Networks and the Icosaahedral CNN (Taco S.Cohen, Maurice Weiler, Berkay Kicanaoglu, Max Welling, 2019) examine l'utilisation d'un arrangement basé sur un icosaèdre régulier convexe.
Résumer
Les couches ont ordinairement des fonctions d'activation pour les sommets et les matrices d'atténuation mappées sur un ensemble exhaustif de bords dirigés entre les couches adjacentes [1]. Les couches de convolution d'image sont souvent dans des arrangements de sommets bidimensionnels avec des cubes d'atténuation mappés sur un ensemble abrégé de bords dirigés entre des couches adjacentes [2]. Les piles ont des réseaux en couches entiers en tant que sommets dans un graphique méta-dirigé, et ces méta-sommets sont connectés dans une séquence avec chaque bord étant soit un méta-paramètre d'apprentissage, un signal de renforcement (rétroaction en temps réel), ou un autre contrôle d'apprentissage . Les hiérarchies de réseaux reflètent la notion selon laquelle plusieurs contrôles peuvent être agrégés et diriger l'apprentissage de niveau inférieur, ou le cas inversé où plusieurs éléments d'apprentissage peuvent être contrôlés par un réseau de superviseurs de niveau supérieur.
Analyse de la tendance des topologies d'apprentissage
Nous pouvons analyser les tendances de l'architecture d'apprentissage automatique. Nous avons trois tendances topologiques.
Profondeur dans la dimension de causalité - Couches vers le traitement du signal où la sortie d'une couche d'activations est envoyée via une matrice de paramètres d'atténuation (poids) à l'entrée de la couche suivante. Au fur et à mesure que de plus grands contrôles sont établis, en commençant seulement par une descente de gradient de base dans la propagation arrière, une plus grande profondeur peut être obtenue.
Dimensionnalité du signal d'entrée - De l'entrée scalaire aux hypercubes (la vidéo a une profondeur de couleur horizontale, verticale, y compris la transparence et le cadre - Notez que ce n'est pas le même que le nombre d'entrées au sens perceptron.
Développement topologique - Les deux ci-dessus sont de nature cartésienne. Les cotes sont ajoutées à angle droit par rapport à la dimension existante. Comme les réseaux sont câblés en hiérarchies (comme dans les hiérarchies laplaciennes) et les cercles en forme de bande de Möbius (comme dans les GAN), les tendances sont topographiques et sont mieux représentées par des graphiques dirigés où les sommets ne sont pas des neurones mais de plus petits réseaux d'entre eux.
Quelles topologies manquent?
Cette section développe le sens de la question du titre.
- Y a-t-il une raison pour laquelle plusieurs méta-sommets, chacun représentant un réseau neuronal, peuvent être organisés de telle sorte que plusieurs méta-sommets de superviseur puissent, conjointement, superviser plusieurs méta-sommets d'employés?
- Pourquoi la rétro-propagation d'un signal d'erreur est-elle le seul équivalent non linéaire d'une rétroaction négative?
- La collaboration entre les méta-sommets plutôt que la supervision ne peut-elle pas être employée, où il y a deux bords réciproques représentant les contrôles?
- Étant donné que les réseaux de neurones sont utilisés principalement pour l'apprentissage de phénomènes non linéaires, pourquoi interdit-on d'autres types de chemins fermés dans la conception des réseaux ou leur interconnexion?
- Y a-t-il une raison pour laquelle le son ne peut pas être ajouté à l'image afin que les clips vidéo puissent être classés automatiquement? Si tel est le cas, un scénario est-il une extraction possible d'un film et une architecture contradictoire peut-elle être utilisée pour générer des scénarios et produire des films sans le système de studio de cinéma? À quoi ressemblerait cette topologie sous forme de graphe orienté?
- Bien que les cellules disposées orthogonalement puissent simuler un arrangement arbitraire régulier de sommets et d'arêtes non orthogonaux, est-il efficace de le faire en vision par ordinateur où l'inclinaison de la caméra autre que plus ou moins 90 degrés est courante?
- Est-il efficace d'organiser des cellules individuelles dans des réseaux ou des réseaux de cellules dans des systèmes d'IA orthogonalement dans des systèmes d'apprentissage qui visent la compréhension et l'assemblage du langage naturel ou la cognition artificielle?
Remarques
Les cellules artificielles des MLP utilisent des fonctions de transfert arithmétique à virgule flottante ou fixe plutôt que des transmissions d'impulsions électrochimiques basées sur l'amplitude et le seuil basé sur la proximité. Ce ne sont pas des simulations réalistes de neurones, donc appeler les neurones des sommets serait un terme impropre pour ce type d'analyse.
La corrélation des caractéristiques de l'image et des changements relatifs entre pixels à proximité immédiate est beaucoup plus élevée que celle des pixels distants.