Les réseaux neuronaux modulaires sont-ils plus efficaces que les grands réseaux monolithiques dans toutes les tâches?

16

Les réseaux neuronaux modulaires / multiples (MNN) tournent autour de la formation de réseaux indépendants plus petits qui peuvent alimenter les uns les autres ou un autre réseau supérieur.

En principe, l'organisation hiérarchique pourrait nous permettre de donner un sens à des espaces problématiques plus complexes et d'atteindre une fonctionnalité plus élevée, mais il semble difficile de trouver des exemples de recherches concrètes faites dans le passé à ce sujet. J'ai trouvé quelques sources:

https://en.wikipedia.org/wiki/Modular_neural_network

https://www.teco.edu/~albrecht/neuro/html/node32.html

https://vtechworks.lib.vt.edu/bitstream/handle/10919/27998/etd.pdf?sequence=1&isAllowed=y

Quelques questions concrètes que j'ai:

Y a-t-il eu des recherches récentes sur l'utilisation des MNN?
Y a-t-il des tâches où les MNN ont montré de meilleures performances que les grands réseaux simples?
Les MNN pourraient-ils être utilisés pour la classification multimodale, c'est-à-dire former chaque réseau sur un type de données fondamentalement différent (texte vs image) et transmettre à un intermédiaire de niveau supérieur qui opère sur toutes les sorties?
Du point de vue de l'ingénierie logicielle, ne sont-ils pas plus tolérants aux pannes et facilement isolables sur un système distribué?
Y a-t-il eu des travaux pour adapter dynamiquement les topologies de sous-réseaux à l'aide d'un processus comme Neural Architecture Search?
En général, les MNN sont-ils pratiques d'une manière ou d'une autre?

Toutes mes excuses si ces questions semblent naïves, je viens d'entrer dans le ML et plus largement dans le CS dans un contexte de biologie / neuroscience et je suis captivé par l'interaction potentielle.

J'apprécie vraiment que vous ayez pris le temps et donné votre avis!

— Harsh Sikka
source

J'avais pensé à l'implémentation d'un tel système modulaire pour améliorer les performances et filtrer - définitivement - les dépendances inutiles sur les entrées. Je pensais que c'était un moment eureka, mais je ne savais pas que c'était déjà une structure établie.

— Tobi

2

Une enquête est en effet en cours sur ce sujet. Une première publication de mars dernier a noté que la modularité a été faite, mais pas explicitement, depuis quelque temps, mais que la formation reste en quelque sorte monolithique. Cet article évalue certaines questions principales à ce sujet et compare les temps de formation et les performances sur des réseaux neuronaux modulaires et fortement récurrents. Voir:

Castillo-Bolado et al. La modularité comme moyen de gestion de la complexité dans l'apprentissage des réseaux de neurones

Certains autres sont très axés sur la modularité, mais en restant avec la formation monolithique (voir la recherche de Jacob Andrea , spécialement Apprendre à raisonner est très liée à votre troisième question). Entre fin 2019 et mars de l'année prochaine, il devrait y avoir plus de résultats (je sais par hasard).

Par rapport à vos deux dernières questions, nous commençons à voir maintenant que la modularité est une clé majeure vers la généralisation. Permettez-moi de vous recommander quelques articles (vous pouvez tous les trouver dans arxiv ou google scholar):

Architecture neuronale adaptative stochastique Recherche de repérage de mots clés (variations d'une architecture pour équilibrer les performances et l'utilisation des ressources).
Généraliser les architectures de programmation neuronale via la récursivité (elles font de la sous-modularité des tâches et je crois que c'est la première fois que la généralisation est garantie dans le domaine des réseaux de neurones).
Maîtriser le jeu de Go avec les réseaux de neurones profonds et la recherche d'arborescence (la topologie de réseau est en fait l'arborescence de recherche elle-même, vous pouvez en voir plus si vous recherchez des réseaux de neurones graphiques).

— David
source

1

Une comparaison de référence de systèmes composés de réseaux formés séparément par rapport à des réseaux uniques plus profonds ne révélerait probablement pas un meilleur choix universellement applicable.¹ Nous pouvons voir dans la littérature l'augmentation du nombre de grands systèmes où plusieurs réseaux artificiels sont combinés, ainsi que d'autres types de composants. Il faut s'y attendre. La modularisation à mesure que la complexité des systèmes augmente et que les exigences en matière de performances et de capacités augmentent est aussi ancienne que l'industrialisation.

Notre laboratoire travaille avec le contrôle robotique, l'instrumentation thermodynamique et l'analyse de données, les réseaux artificiels sont des composants dans ces contextes de système plus vastes. nous n'avons pas de MLP ou RNN qui remplissent à eux seuls une fonction utile.

Contrairement à la conjecture sur les hiérarchies il y a des décennies, l'approche topologique qui semble bien fonctionner dans la plupart des cas suit les relations de module système les plus courantes qui sont observées dans les centrales électriques, les usines automatisées, l'aéronautique, les architectures d'informations d'entreprise et d'autres créations complexes. Les connexions sont celles du flux, et si elles sont bien conçues, les fonctions de supervision sont minimes. Le flux se produit entre les modules impliquant des protocoles de communication, et chaque module remplit bien sa fonction, encapsulant le niveau inférieur de complexité et de détails fonctionnels. Ce n'est pas un réseau qui en supervise un autre qui semble se révéler le plus efficace dans la pratique, mais l'équilibre et la symbiose. L'identification d'une conception claire maître-esclave dans le cerveau humain semble également glissante.

Le défi n'est pas de trouver les chemins d'information qui composent la topologie des informations système. Le flux d'informations est souvent évident lors de l'analyse des problèmes. La difficulté est de découvrir les meilleures stratégies pour former ces réseaux indépendants. Les dépendances à l'entraînement sont courantes et souvent critiques, alors que chez les animaux, l'entraînement se fait sur place ou pas du tout. Nous découvrons les conditions dans lesquelles ce type d'apprentissage dans nos systèmes est pratique et comment y parvenir. La plupart de nos recherches dans ce sens visent à découvrir des moyens d'obtenir une fiabilité plus élevée et une charge plus faible en termes d'heures de recherche pour l'obtenir.

Une fonctionnalité supérieure n'est pas toujours avantageuse. Il produit souvent une fiabilité moindre et consomme des ressources de développement supplémentaires avec peu de retour. Trouvez un moyen de combiner automatisation de niveau supérieur, économie de ressources et fiabilité dans un processus de développement, et vous pourriez gagner un prix et une mention honorable sur le Web.

Les systèmes parallèles ayant le même objectif sont une bonne idée, mais pas un nouveau. Dans un système aéronautique, neuf systèmes parallèles ont le même objectif, en groupes de trois. Chaque groupe utilise une approche informatique différente. Si deux des systèmes utilisant la même approche fournissent la même sortie et que le troisième diffère, la sortie correspondante est utilisée et la différence dans le troisième est signalée comme une défaillance du système. Si deux des approches différentes fournissent des résultats similaires et que la troisième diffère sensiblement, une fusion des deux résultats similaires est utilisée et la troisième est signalée comme un cas d'utilisation pour développer davantage l'approche dissidente.

La tolérance aux pannes améliorée a un coût, huit systèmes supplémentaires et les ressources informatiques et la connectivité associées, ainsi que les comparateurs à l'arrière, mais dans les systèmes qui sont une question de vie ou de mort, les coûts supplémentaires sont payés et la fiabilité est maximisée.

L'adaptation topologique dynamique est liée aux systèmes redondants et à la tolérance aux pannes, mais à certains égards, elle est assez distincte. Dans ce domaine de développement, la technologie à suivre est l'informatique neuromorphique, qui s'inspire en partie de la neuroplasticité.

Une dernière distinction à considérer est entre la topologie de processus, la topologie de données et la topologie matérielle. Ces trois cadres géométriques peuvent produire ensemble une plus grande efficacité s'ils sont alignés de manière spécifique, ce qui produit des correspondances plus directes entre les relations entre le flux, la représentation et la mécanique. Ce sont cependant des topologies distinctes. La signification de l'alignement peut ne pas être apparente sans plonger profondément dans ces concepts et les détails qui émergent pour des objectifs spécifiques de produit ou de service.

Notes de bas de page

[1] Les réseaux profonds formés comme une seule unité et fonctionnant sans connectivité avec d'autres réseaux artificiels ne sont pas nécessairement monolithiques. La plupart des réseaux profonds pratiques ont une séquence hétérogène de couches en termes de fonctions d'activation et souvent de types de cellules.

— Douglas Daseeco
source