Si les valeurs numériques ne sont que de simples estimations, pourquoi ne pas revenir à l'analogique pour l'IA?


18

L'impulsion derrière la transition du XXe siècle des circuits analogiques aux circuits numériques a été motivée par le désir d'une plus grande précision et d'un bruit plus faible. Nous développons maintenant un logiciel où les résultats sont approximatifs et où le bruit a une valeur positive.

  • Dans les réseaux artificiels, nous utilisons des gradients (jacobiens) ou des modèles du second degré (hessois) pour estimer prochaines étapes d'un algorithme convergent et définir des niveaux acceptables d'imprécision et de doute. 1
  • Dans les stratégies de convergence, nous ajoutons délibérément du bruit en injectant des perturbations aléatoires ou pseudo-aléatoires pour améliorer la fiabilité en sautant essentiellement les minima locaux dans la surface d'optimisation pendant la convergence.2

Ce que nous acceptons et introduisons délibérément dans les systèmes d'IA actuels sont les mêmes choses qui ont poussé l'électronique vers les circuits numériques.

Pourquoi ne pas revenir aux circuits analogiques pour les réseaux neuronaux et les implémenter avec des matrices d'amplificateur opérationnel au lieu de matrices d'éléments de traitement de signal numérique?

Les valeurs des paramètres d'apprentissage du réseau artificiel peuvent être conservées à l'aide de condensateurs intégrés chargés via des convertisseurs D-A de sorte que les états appris peuvent bénéficier de la précision et de la commodité numériques, tandis que la propagation vers l'avant bénéficie d'avantages analogiques.

  • Plus grande vitesse 3
  • Des ordres de grandeur moins de transistors pour représenter les cellules du réseau
  • Bruit thermique naturel 4

Un article académique ou une recherche de brevets pour des réseaux artificiels analogiques révèle beaucoup de travail au cours des quarante dernières années, et la tendance de la recherche a été maintenue. Les circuits analogiques de calcul sont bien développés et fournissent une base pour les réseaux de neurones.

L'obsession actuelle du calcul numérique pourrait-elle obscurcir la vision commune des options architecturales de l'IA?

L'analogue hybride est-il l'architecture supérieure des réseaux artificiels?

 


Notes de bas de page

[1] Le cadre d'apprentissage PAC (probablement approximativement correct) relie l'erreur acceptable ϵ et le doute acceptable δ à la taille d'échantillon requise pour l'apprentissage pour des types de modèles spécifiques. (Notez que 1-ϵ représente la précision et 1-δ représente la confiance dans ce cadre.)

[2] La descente de gradient stochastique est montrée, lorsque des stratégies et des hyper-paramètres appropriés sont utilisés, pour converger plus rapidement pendant l'apprentissage et devient une meilleure pratique dans les applications typiques du monde réel des réseaux artificiels.

[3] Le processeur Intel Core i9-7960X fonctionne à des vitesses turbo de 4,2 GHz alors que la diffusion satellite fixe standard est de 41 GHz.

[4] Le bruit thermique peut être obtenu sur le silicium en amplifiant et en filtrant les fuites d'électrons à travers une diode zener polarisée en inverse à son point d'avalanche. La source des phénomènes quantiques est le bruit thermique de Johnson – Nyquist. Sanguinetti et. Al. dans leur «Génération de nombres aléatoires quantiques sur un téléphone mobile» (2014), «Un détecteur peut être modélisé comme un canal avec perte avec une probabilité de transmission η suivi d'un convertisseur photon-à-électron avec efficacité unitaire ... la distribution mesurée sera être la combinaison de l'incertitude quantique et du bruit technique ", et il y a le travail JTWPA de CalTech. Ces deux éléments peuvent devenir des normes pour produire un bruit quantique véritablement non déterministe dans les circuits intégrés.

Les références


1
Je dirais que vous êtes sur quelque chose. Il y a quelques efforts pour mettre l'IA dans des puces analogiques (je pense qu'Apple pourrait faire quelque chose avec l'iphone). Je ne sais pas combien de recherches ont été faites, mais je suis sûr que vous pouvez trouver un livre blanc quelque part. Cela vaut vraiment la peine de faire des recherches. Ma prédiction est qu'il pourrait bientôt y avoir des puces AI programmables qui ont un nombre défini d'entrées et de sorties (un peu comme les registres de bus).
Zakk Diaz,

Ce n'est pas une réponse complète, mais je soupçonne que le principal problème est le coût. Les circuits d'impression sont super bon marché à l'échelle et toujours assez chers en petits lots. Les GPU discrets sont déjà produits en masse et fonctionnent "assez bien". Une puce analogique ne peut généralement bien faire qu'une seule tâche, et les modèles préférés changent rapidement. Une puce discrète peut être programmée pour faire beaucoup de choses différentes. Si nous trouvons une "meilleure" topologie pour les RNA, il sera peut-être judicieux de refaire des puces analogiques.
John Doucette,

1
Sensationnel. Mon premier jour sur ce site et j'ai trouvé quelqu'un qui partage une pensée avec moi. :-RÉ

Réponses:


6

Je pense qu'il y a plusieurs raisons. Tout d'abord: la flexibilité. Avec les processeurs et les GPU modernes, vous pouvez construire à peu près tous les modèles d'IA que vous voulez et dans toutes les tailles et complexité que vous souhaitez. Comment pouvez-vous être sûr que le modèle que vous utilisez actuellement est toujours adapté dans quelques années? Peut-être y aura-t-il une percée majeure dans les NN au cours des prochaines années? Peut-être que certains scientifiques trouvent qu'il existe un moyen bien meilleur de développer une IA qu'avec les NN, les algorithmes génétiques, etc. Les puces normales peuvent tout gérer, et elles peuvent le faire assez bien. Mais si vous voulez l'optimiser et ne vous souciez pas d'argent, vous pouvez développer une architecture spécialisée (cela est déjà fait par différentes entreprises, ce qui donne un coup de pouce majeur à la vitesse sur des tâches spécifiques).

Raison numéro deux: la production de masse. Je veux dire, les entreprises pourraient éventuellement produire des composants AI analogiques hautement intégrés (disons, par exemple, des puces NN). Mais ce serait un investissement plus important. Il est assez difficile de savoir si des unités suffisamment flexibles pour être une alternative matérielle sérieuse à l'IA peuvent être facilement produites dans une production de masse-nm qui peut rivaliser avec les processeurs et les GPU. En particulier, ces derniers sont hautement optimisés pour effectuer des calculs parallèles massifs. Et, si vous regardez le développement d'architectures similaires au GPU (peut faire peu de choses, mais celles-ci très bien) qui sont en outre optimisées pour l'apprentissage maschine, vous pouvez voir que ce serait une rude concurrence pour les unités analogiques.

Tout ce qui précède ne signifie pas qu'il n'y a pas de recherche dans ce domaine. Il existe plusieurs expériences qui tentent de l'archiver, mais elles ne sont pas encore «dangereuses» pour les architectures courantes. Finalement, ils viendront à l'avenir, lorsque nous comprendrons mieux l'IA et l'intelligence en général et que nous essaierons simplement de les modifier, mais je suis plutôt sceptique à ce sujet.

EDIT: En outre, quelque chose qui appartient également à la flexibilité: vous pouvez mieux expérimenter avec les algorithmes d'IA fonctionnant sur du matériel numérique «normal». Par exemple, vous pouvez facilement inspecter un NN à certains emplacements, vous pouvez rapidement modifier les données d'entrée ou en fournir d'autres, vous n'êtes vraiment lié à rien. Et comme nous ne connaissons pas ou ne comprenons toujours pas tous les modèles complètement, quand les utiliser, s'il existe de meilleures architectures pour une certaine tâche, etc., il n'est pas logique de mettre quelque chose de «jeune» et «expérimental» dans un analogique fixe architecture.


Bien que l'économie d'échelle (le volume de fabrication) favorise le numérique aujourd'hui, ce n'était pas le cas dans les années 1980 et que beaucoup pas dans les années 2040. L'analogique est moins cher par transistor. Il y a 128 000 transistors dans un coeur CUDA par thread et seulement 40 transistors dans un ampli op multiplexé. Plus important encore, la question est théorique - qu'est-ce qui a le plus de sens technologique - et non pas ce qui est économique dans l'état actuel de l'économie VLSI. S'il y a un modèle que nous pouvons voir dans la technologie au cours des 100 dernières années, c'est que la normale d'aujourd'hui est la pièce de musée de demain. - La lecture des conditions de prime peut aider.
FauChristian

Mais n'est-ce pas un peu similaire dans ce scénario? Développer massivement ce matériel MAINTENANT n'aurait pas de sens économique, mais pas technologique non plus. Nous n'en savons tout simplement pas assez.
Ben

Si «nous» est l'appartenance à AI Stack Exchange, il y a une forte tendance vers tout ce qui a déjà été implémenté dans les bibliothèques Python populaires. Mais les gouvernements et les grandes entreprises semblent également intéressés à augmenter les réseaux et le VLSI analogique, l'USAF et Intel par exemple. Les laboratoires de robotique poussent vers l'analogique, et les chercheurs en neurocognitif considèrent que les RNA ne sont pas dignes du milieu N. Le vrai neurone est des milliers de fois plus complexe qu'une fonction ReLU. Ce qui apparaîtra comme dominant pour quelle application n'est pas clair, mais ce n'est pas la même chose que de ne pas en savoir assez pour discuter des options.
FauChristian

Vous avez peut-être lu le mot «pur» dans la question. Aucune des recherches en cours ne suggère d'analogue pur, avec des cadrans à la place des claviers et des CRT au lieu des LCD. Toutes les propositions récentes dans la littérature et dans le développement actif de VLSI suivent un paradigme bien compris: simuler un analogique programmable (non fixe) qui peut apprendre le programme comme le peuvent les réseaux artificiels numériques, puis réaliser en silicium, sans supprimer la programmabilité ou la capacité d'apprentissage. Les signaux en temps réel peuvent être analogiques, numériques ou les deux, mais le contrôle global de la puce est numérique, comme avec un GPU ou un DSP.
FauChristian

La période de primes va bientôt se terminer, et la question de savoir si l'apprentissage analogique a un sens car il peut tirer parti du bruit quantique facilement disponible n'est pas encore abordée dans cette réponse. La prédiction n'était pas indiquée par la question. En outre, le budget massif qui semble viser le calcul analogique des réseaux de perceptrons, de convolution et de dopage peut très bien prévaloir, mais seulement si la viabilité à long terme est rationnelle. D'où la question.
FauChristian

6

Réponse rapide

Quand Intel a acquis Nirvana, ils ont indiqué leur conviction que le VLSI analogique a sa place dans les puces neuromorphiques du futur proche 1, 2, 3 .

Que ce soit à cause de la capacité d'exploiter plus facilement le bruit quantique naturel dans les circuits analogiques n'est pas encore public. Cela est plus probable en raison du nombre et de la complexité des fonctions d'activation parallèles qui peuvent être regroupées dans une seule puce VLSI. À cet égard, l'analogique a des avantages considérables par rapport au numérique.

Il est probablement avantageux pour les membres AI Stack Exchange de se mettre au courant de cette évolution technologique fortement indiquée.

Tendances et non-tendances importantes de l'IA

Pour aborder cette question scientifiquement, il est préférable de contraster la théorie du signal analogique et numérique sans biais des tendances.

Les amateurs d'intelligence artificielle peuvent trouver beaucoup sur le Web sur l'apprentissage en profondeur, l'extraction de fonctionnalités, la reconnaissance d'images et les bibliothèques de logiciels à télécharger et à commencer immédiatement à expérimenter. C'est la façon dont la plupart se mouillent les pieds avec la technologie, mais l'introduction accélérée à l'IA a aussi ses inconvénients.

Lorsque les fondements théoriques des premiers déploiements réussis de l'IA destinée aux consommateurs ne sont pas compris, des hypothèses se dressent en conflit avec ces fondements. Les options importantes, telles que les neurones artificiels analogiques, les réseaux enrichis et la rétroaction en temps réel, sont ignorées. L'amélioration des formulaires, des capacités et de la fiabilité est compromise.

L'enthousiasme pour le développement technologique doit toujours être tempéré par au moins une mesure égale de pensée rationnelle.

Convergence et stabilité

Dans un système où la précision et la stabilité sont obtenues par rétroaction, les valeurs des signaux analogiques et numériques sont toujours de simples estimations.

  • Valeurs numériques dans un algorithme convergent ou, plus précisément, une stratégie conçue pour converger
  • Valeurs de signaux analogiques dans un circuit amplificateur opérationnel stable

Comprendre le parallèle entre la convergence grâce à la correction d'erreurs dans un algorithme numérique et la stabilité obtenue grâce à la rétroaction dans l'instrumentation analogique est important dans la réflexion sur cette question. Ce sont les parallèles utilisant le jargon contemporain, avec le numérique à gauche et l'analogue à droite.

┌───────────────────────────────┬┬────────────────── ─────────────┐
│ * Filets artificiels numériques * │ * Filets artificiels analogiques * │
├───────────────────────────────┼┼────────────────── ─────────────┤
Propagation Propagation vers l'avant │ Chemin du signal primaire │
├───────────────────────────────┼┼────────────────── ─────────────┤
│ Fonction d'erreur │ Fonction d'erreur │
├───────────────────────────────┼┼────────────────── ─────────────┤
│ Convergent │ Stable │
├───────────────────────────────┼┼────────────────── ─────────────┤
│ Saturation du gradient │ Saturation aux entrées │
├───────────────────────────────┼┼────────────────── ─────────────┤
│ Fonction d'activation │ Fonction de transfert vers l'avant │
└───────────────────────────────┴┴────────────────── ─────────────┘

Popularité des circuits numériques

Le principal facteur de l'augmentation de la popularité des circuits numériques est son confinement du bruit. Les circuits numériques VLSI actuels ont de longs délais moyens de défaillance (temps moyen entre les instances où une valeur de bit incorrecte est rencontrée).

L'élimination virtuelle du bruit a donné aux circuits numériques un avantage significatif par rapport aux circuits analogiques pour la mesure, le contrôle PID, le calcul et d'autres applications. Avec les circuits numériques, on pouvait mesurer jusqu'à cinq chiffres décimaux de précision, contrôler avec une précision remarquable et calculer π à mille chiffres décimaux de précision, de manière répétée et fiable.

Ce sont principalement les budgets de l'aéronautique, de la défense, de la balistique et des contre-mesures qui ont accru la demande de fabrication pour réaliser des économies d'échelle dans la fabrication de circuits numériques. La demande de résolution d'affichage et de vitesse de rendu motive désormais l'utilisation du GPU comme processeur de signal numérique.

Ces forces essentiellement économiques sont-elles à l'origine des meilleurs choix de conception? Les réseaux artificiels numériques sont-ils la meilleure utilisation des biens immobiliers VLSI précieux? C'est le défi de cette question, et c'est une bonne question.

Réalités de la complexité des circuits intégrés

Comme mentionné dans un commentaire, il faut des dizaines de milliers de transistors pour implémenter dans le silicium un neurone de réseau artificiel indépendant et réutilisable. Ceci est largement dû à la multiplication matrice-vecteur conduisant à chaque couche d'activation. Il suffit de quelques dizaines de transistors par neurone artificiel pour mettre en œuvre une multiplication matrice-vecteur et le réseau d'amplificateurs opérationnels de la couche. Les amplificateurs opérationnels peuvent être conçus pour exécuter des fonctions telles que le pas binaire, le sigmoïde, le soft plus, l'ELU et l'ISRLU.

Bruit du signal numérique provenant de l'arrondi

La signalisation numérique n'est pas exempte de bruit car la plupart des signaux numériques sont arrondis et donc approximatifs. La saturation du signal en rétropropagation apparaît d'abord comme le bruit numérique généré par cette approximation. Une saturation supplémentaire se produit lorsque le signal est toujours arrondi à la même représentation binaire.

veknN

v=n=0N1n2k+e+N-n

Les programmeurs rencontrent parfois les effets d'arrondi en nombres à virgule flottante IEEE double ou simple précision lorsque les réponses qui devraient être 0,2 apparaissent sous la forme 0.20000000000001. Un cinquième ne peut pas être représenté avec une précision parfaite sous forme de nombre binaire car 5 n'est pas un facteur de 2.

Battage médiatique et tendances populaires

E=mc2

Dans l'apprentissage automatique, comme pour de nombreux produits technologiques, il existe quatre indicateurs de qualité clés.

  • Efficacité (qui stimule la vitesse et l'économie d'utilisation)
  • Fiabilité
  • Précision
  • Compréhensibilité (qui stimule la maintenabilité)

Parfois, mais pas toujours, la réalisation de l'un compromet l'autre, auquel cas un équilibre doit être trouvé. La descente de gradient est une stratégie de convergence qui peut être réalisée dans un algorithme numérique qui équilibre bien ces quatre, c'est pourquoi c'est la stratégie dominante dans la formation de perceptron multicouche et dans de nombreux réseaux profonds.

Ces quatre choses étaient au cœur des premiers travaux de cybernétique de Norbert Wiener avant les premiers circuits numériques dans les Bell Labs ou la première bascule réalisée avec des tubes à vide. Le terme cybernétique est dérivé du grec κυβερνήτης (prononcé kyvernítis ) signifiant timonier, où le ruder et les voiles devaient compenser le vent et le courant en constante évolution et le navire devait converger vers le port ou le port prévu.

Le point de vue orienté sur les tendances de cette question pourrait entourer l'idée de savoir si le VLSI peut être accompli pour réaliser des économies d'échelle pour les réseaux analogiques, mais le critère donné par son auteur est d'éviter les vues motivées par les tendances. Même si ce n'était pas le cas, comme mentionné ci-dessus, beaucoup moins de transistors sont nécessaires pour produire des couches de réseau artificielles avec des circuits analogiques qu'avec des circuits numériques. Pour cette raison, il est légitime de répondre à la question en supposant que l'analogique VLSI est tout à fait réalisable à un coût raisonnable si l'attention était dirigée vers sa réalisation.

Conception de réseaux artificiels analogiques

Les filets artificiels analogiques sont à l'étude dans le monde entier, y compris la coentreprise IBM / MIT, Nirvana d'Intel, Google, l'US Air Force dès 1992 5 , Tesla et bien d'autres, certains indiqués dans les commentaires et l'addendum à cette question.

L'intérêt de l'analogique pour les réseaux artificiels a à voir avec le nombre de fonctions d'activation parallèles impliquées dans l'apprentissage pouvant tenir sur un millimètre carré de puce VLSI immobilier. Cela dépend en grande partie du nombre de transistors nécessaires. Les matrices d'atténuation (les matrices des paramètres d'apprentissage) 4 nécessitent une multiplication matricielle vectorielle, ce qui nécessite un grand nombre de transistors et donc une partie importante de l'immobilier VLSI.

Il doit y avoir cinq composants fonctionnels indépendants dans un réseau perceptron multicouche de base s'il doit être disponible pour une formation entièrement parallèle.

  1. La multiplication matricielle vectorielle qui paramètre l'amplitude de la propagation directe entre les fonctions d'activation de chaque couche
  2. La conservation des paramètres
  3. Les fonctions d'activation pour chaque couche
  4. La rétention des sorties de la couche d'activation à appliquer en rétropropagation
  5. La dérivée des fonctions d'activation pour chaque couche

Dans les circuits analogiques, avec le plus grand parallélisme inhérent à la méthode de transmission du signal, 2 et 4 peuvent ne pas être nécessaires. La théorie de la rétroaction et l'analyse harmonique seront appliquées à la conception du circuit, à l'aide d'un simulateur comme Spice.

cpc(r)r(t,c)tjejewje τpτuneτ

c=cpc(r(t,c)t)(je=0je-2(τpwjewje-1+τunewje+τwje)+τunewje-1+τwje-1)

Pour les valeurs communes de ces circuits dans les circuits intégrés analogiques actuels, nous avons un coût pour les puces VLSI analogiques qui convergent avec le temps à une valeur au moins trois fois inférieure à celle des puces numériques avec un parallélisme d'entraînement équivalent.

Adressage direct de l'injection de bruit

La question indique: «Nous utilisons des gradients (jacobiens) ou des modèles du deuxième degré (hessois) pour estimer les prochaines étapes d'un algorithme convergent et ajouter délibérément du bruit [ou] injecter des perturbations pseudo-aléatoires pour améliorer la fiabilité de la convergence en sautant les puits locaux dans l'erreur surface pendant la convergence. "

La raison pour laquelle du bruit pseudo-aléatoire est injecté dans l'algorithme de convergence pendant l'entraînement et dans les réseaux rentrants en temps réel (tels que les réseaux de renforcement) est dû à l'existence de minima locaux dans la surface de disparité (erreur) qui ne sont pas les minima globaux de celui-ci. surface. Les minima globaux sont l'état d'entraînement optimal du réseau artificiel. Les minima locaux peuvent être loin d'être optimaux.

Cette surface illustre la fonction d'erreur des paramètres (deux dans ce cas très simplifié 6 ) et la question des minima locaux masquant l'existence des minima globaux. Les points bas de la surface représentent des minima aux points critiques des régions locales de convergence d'entraînement optimale. 7,8

Surface d'erreur montrant comment l'optimum global peut être manqué

Les fonctions d'erreur sont simplement une mesure de la disparité entre l'état actuel du réseau pendant la formation et l'état du réseau souhaité. Lors de la formation des réseaux artificiels, l'objectif est de trouver le minimum global de cette disparité. Une telle surface existe que les échantillons de données soient étiquetés ou non et que les critères d'achèvement de la formation soient internes ou externes au réseau artificiel.

Si le taux d'apprentissage est faible et que l'état initial est à l'origine de l'espace des paramètres, la convergence, en utilisant la descente de gradient, convergera vers le puits le plus à gauche, qui est un minimum local, pas le minimum global à droite.

Même si les experts initialisant le réseau artificiel d'apprentissage sont suffisamment intelligents pour choisir le point médian entre les deux minima, le gradient à ce point descend toujours vers le minimum de la main gauche, et la convergence arrivera à un état d'entraînement non optimal. Si l'optimalité de la formation est critique, ce qui est souvent le cas, la formation ne parviendra pas à obtenir des résultats de qualité de production.

Une solution utilisée consiste à ajouter de l'entropie au processus de convergence, qui est souvent simplement l'injection de la sortie atténuée d'un générateur de nombres pseudo-aléatoires. Une autre solution moins souvent utilisée consiste à dériver le processus de formation et à essayer d'injecter une grande quantité d'entropie dans un deuxième processus convergent afin qu'il y ait une recherche conservatrice et une recherche quelque peu sauvage s'exécutant en parallèle.

Il est vrai que le bruit quantique dans les circuits analogiques extrêmement petits présente une plus grande uniformité dans le spectre du signal de son entropie qu'un générateur numérique pseudo-aléatoire et beaucoup moins de transistors sont nécessaires pour obtenir un bruit de meilleure qualité. La question de savoir si les défis à relever dans les implémentations VLSI ont été surmontées n'a pas encore été révélée par les laboratoires de recherche intégrés dans les gouvernements et les entreprises.

  • Ces éléments stochastiques utilisés pour injecter des quantités mesurées de hasard pour améliorer la vitesse et la fiabilité de l'entraînement seront-ils suffisamment immunisés contre le bruit externe pendant l'entraînement?
  • Seront-ils suffisamment protégés des interférences internes?
  • Y aura-t-il une demande qui réduira suffisamment le coût de fabrication du VLSI pour atteindre un point d'utilisation plus importante en dehors des entreprises de recherche fortement financées?

Les trois défis sont plausibles. Ce qui est certain et aussi très intéressant, c'est la façon dont les concepteurs et les fabricants facilitent le contrôle numérique des voies de signaux analogiques et des fonctions d'activation pour obtenir une formation à grande vitesse.

Notes de bas de page

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] L'atténuation fait référence à la multiplication d'un signal de sortie d'une actionnement par un périmètre entraînable pour fournir un ajout à additionner avec d'autres pour l'entrée d'une activation d'une couche suivante. Bien qu'il s'agisse d'un terme physique, il est souvent utilisé en génie électrique et c'est le terme approprié pour décrire la fonction de la multiplication matricielle-vecteur qui permet ce qui, dans les cercles moins instruits, est appelé pondération des entrées de couche.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Il y a beaucoup plus de deux paramètres dans les réseaux artificiels, mais seulement deux sont représentés dans cette illustration parce que l'intrigue ne peut être compréhensible qu'en 3D et nous avons besoin d'une des trois dimensions pour la valeur de la fonction d'erreur.

z=(X-2)2+(y-2)2+60-401+(y-1.1)2+(X-0,9)2-40(1+((y-2.2)2+(X-3.1)2)4)

[8] Commandes gnuplot associées:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

4

Instrumentation numérique des cellules analogiques

L'un des principaux défis des réseaux artificiels analogiques est que l'instrumentation de réseau serait plus pratique si elle était numérique. Toute mise en œuvre VLSI de perceptrons analogiques, de convolutions ou de réseaux à pointes devra probablement avoir des composants numériques dans un arrangement hybride pour plusieurs fonctions.

  • Indicateurs de santé
  • Indicateurs de défaut
  • Archivage et récupération des paramètres appris 1
  • Contrôle global du système
  • Définition d'hyper-paramètres
  • Statistiques opérationnelles
  • Introspection pour le développement et le débogage
  • Points de rupture
  • Auditabilité

Cela signifie que la réalisation d'un réseau d'apprentissage artificiel analogique à usage général nécessitera une conversion A-D et D-A. 2 Le défi de conception VLSI devient alors d'éviter la formation de transistors à partir de l'introduction d'un grand nombre de blocs de conversion. Cela annulerait l'avantage de densité de la réalisation analogique de propagation avant et arrière.

La solution probable consiste à utiliser une matrice de verrouillage pour distribuer les signaux des convertisseurs D-A aux condensateurs et la matrice de commutation à faible fuite pour sélectionner la valeur qui sera lue par les convertisseurs A-D. Cela doit être fait sans introduire de bruit numérique dans les chemins analogiques et sans dégrader les charges stockées ni perdre en précision lors de leur chargement.

L'importance du nombre de transistors et de routes supplémentaires dans un circuit hors du réseau primaire ne peut être trouvée qu'en appliquant un processus de conception VLSI.

Importantes contributions Open Source

L'Université du Massachusetts a introduit le référentiel open source BindsNet 3,4 en février 2018. Il simule les réseaux de dopage analogiques avec des logiciels et du matériel numériques et exploite l'accélération GPU via PyTorch.

Cela facilite l'expérimentation actuelle dans la conception et les stratégies de réseaux de dopage. Le succès de l'utilisation de la simulation, s'il était suffisamment important, conduirait probablement à des conceptions VLSI supérieures.


Notes de bas de page

[1] Dans tout système d'apprentissage pratique, les paramètres appris doivent être extraits de la mise en œuvre de VLSI, stockés dans une base de données et mis à la disposition de n'importe quel nombre de systèmes de développement, de test, d'UAT ou de production pour le déploiement, l'analyse des causes profondes des défauts, la mise à l'échelle et reprise après sinistre. L'enregistrement et le chargement doivent être une caractéristique de base des réseaux artificiels analogiques hybrides VLSI, même entre les époques pendant la formation et pendant l'utilisation réelle sur le terrain.

[2] On ne peut pas maintenir indéfiniment l'état appris d'un réseau artificiel dans des condensateurs. Bien que les condensateurs soient devenus le composant passif dominant pour les circuits analogiques conçus dans les processus CMOS standard, ils ne peuvent pas avoir beaucoup de capacité et les fuites ne sont pas nulles. La demi-vie des circuits de stockage capacitifs et la précision requise des valeurs des paramètres détermineront la vitesse d'un cycle de lecture et de remise à jour conditionnelle.

[3] Référentiel open source BindsNet

[4] BindsNET [article]: Une bibliothèque de réseaux de neurones dopants orientée apprentissage automatique en Python pour la publication Harvard U du résumé de l'article BindsNet.


4

Je suis surpris que personne n'ait mentionné certaines des directions de recherche spécifiques dans le domaine de l'IA analogique. Et aussi pour clarifier l'intelligence artificielle n'est pas exactement la même chose que l'apprentissage automatique comme le suggère cette réponse . Les progrès récents du calcul analogique ne concernent que le Machine Learning.

CMOS analogique:

Tout d'abord, parlons des premières implémentations analogiques des neurones. Dr.Giacomo Indiveri, et al a été peu des pionniers dans le domaine. Bien qu'avec la logique CMOS, vous pouvez concevoir des réseaux neuronaux STDP (temps de Spike Plasticité à charge), il est difficile d'utiliser dans les algorithmes d' apprentissage machine. Le cerveau humain doit encore être entièrement compris, en particulier comment il communique des informations complexes avec des pointes. Les réseaux basés sur des pointes sont bons pour effectuer des tâches de reconnaissance d'image relativement petites et de faible complexité (la plupart des articles semblent plus soucieux d'améliorer les performances plutôt que de s'appliquer à des tâches très complexes). En raison du grand nombre de transistors disponibles, nous pourrions être en mesure de l'utiliser dans des tâches complexes.

Le meilleur exemple serait que Google utilise cette idée de faible précision dans les TPU et de précision de compensation, en utilisant un grand nombre d'unités de traitement, ce qui entraîne une sorte de compromis entre le temps, la précision et la zone. Cela peut être analogue à un grand nombre de transistors dans un processeur, mais avec une faible précision. ( Un regard en profondeur sur la première unité de traitement de tenseur (TPU) de Google )

REMARQUE: certains pourraient faire valoir que la technologie CMOS relève du domaine numérique, mais comme nous n'utilisons pas spécifiquement CMOS ici pour effectuer une opération numérique, j'aime à la considérer comme analogique.

Les tâches basées sur les pics sont apparemment très bonnes pour les réseaux Winner Take All (un peu comme les cartes auto-organisées ), c'est donc la manière générale d'implémenter des algorithmes d'apprentissage automatique dans les puces VLSI.

Les réseaux basés sur des pointes n'ont pas de mémoire idéale, vous ne pouvez pas avoir des poids de haute précision. Ils ont proposé d'implémenter des poids biologiques ou des synapses ou de la mémoire à l'aide de condensateurs, mais apparemment, il fait face à des problèmes similaires aux puces de silicium normales, comme la fuite de charge et également d'autres non-idéalités à base de silicium et d'après ce que j'ai compris, ils peuvent également modéliser des poids limités ( comme -1, 0, 1).

Calcul numérique:

Ici, vient le calcul numérique. Les tâches qui nécessitent une grande quantité de représentation en virgule flottante ne peuvent pas simplement être mises en œuvre par des pointes, car nous ne connaissons pas encore, ni même sommes capables d'imiter complètement la biophysique ou tous les aspects d'un vrai neurone d'ailleurs. Le calcul numérique aide simplement à transmettre plus d'informations avec autant de précision que nous le souhaitons (si nous concevons un tel processeur). Même si les goulots d'étranglement sont un inconvénient connu de l'architecture de Von Neumann pour le calcul numérique, ce n'est pas autant un problème que la représentation de l'information via des pointes. Les pointes ont toujours une amplitude fixe, la seule façon dont elle transmet probablement l'information est par sa fréquence et son signe (excitateur ou inhibiteur). Les vitesses d'horloge sont également assez élevées dans les ordinateurs modernes.

Memristors: une nouvelle direction

Voici l'invention la plus récente, le Memristor . Il s'agit de loin de l'appareil analogique le plus prometteur du Machine Learning. Les Memristors sont un tout nouveau concept prévu dans les années 70 et produit seulement en 2008. Fondamentalement, ce sont des RRAM ou des RAM résistives. En cela, la résistance de la résistance de mémoire ou du Memristor est directement liée à l'histoire actuelle du passé qui est très similaire aux modèles biophysiques des neurones. Ils peuvent également être formés facilement en utilisant des réseaux de barres transversales (essentiellement des matrices de contacts électriques) de memristors (les réseaux de barres transversales représenteront des matrices de poids, la tension appliquée le long des lignes ou des colonnes détermine la propagation vers l'avant ou la propagation vers l'arrière).

Ainsi, Memristor donne un véritable spin analogique aux algorithmes d'apprentissage automatique. Malheureusement, en raison de son arrivée récente, de nombreux problèmes restent à résoudre.

  • Les memristors peuvent se dégrader assez rapidement, c'est-à-dire qu'ils ont des cycles d'entraînement limités.
  • Les memristors introduisent beaucoup de bruit, ce qui n'aide apparemment pas dans la cause de la régularisation comme pourrait le penser un ingénieur ML.
  • Éléments exotiques nécessaires à sa réalisation (TjeO2 et HFO2), les utilisateurs de Memristors dans les milieux universitaires sont très limités. Mais quelques laboratoires travaillant dans ce domaine sont:

Laboratoire de recherche en nanoélectronique, Université Purdue

Matériaux électrochimiques, ETH Zurich

Projet sur le cerveau humain

L'Institut MARCS pour le cerveau, le comportement et le développement

Photonique neuromorphique:

Récemment, il y a eu un intérêt dans le domaine de la photonique neuromorphique. Voici un court article sur le même sujet. Je ne connais pas le fonctionnement interne de la même chose, mais AFAIK cela implique la transmission d'informations sous forme optique au sein de la puce de traitement elle-même. Cela conduit à certains avantages par rapport aux circuits analogiques ou numériques normaux:

  • Traitement plus rapide de l'information.
  • Densité d'information plus élevée.
  • Meilleure fidélité des données grâce à des pertes très moindres.

Note latérale: Certaines de mes observations sont basées sur des faits tandis que d'autres sont purement de mémoire, donc je peux me tromper (puisque je suis un débutant dans ce domaine). N'hésitez pas à signaler les erreurs.
DuttaA

2

Je pense que la plupart des gens ont à peu près répondu à la question avec diligence de manière très informative. Je voudrais juste dire que nous utilisons des circuits numériques couramment parce que c'est la technologie existante et que les circuits analogiques semblent vraiment très prometteurs.

Cependant, en ce moment, cette idée n'est pas très bien développée malgré la quantité de recherches effectuées au cours des dernières années. Jusqu'à présent, aucune entreprise n'a essayé de mettre en œuvre l'idée à un niveau commercial où elle fabrique de telles puces pour une utilisation en dehors de ses laboratoires.

De plus, cette idée ressemble à une nouvelle approche et a un grand potentiel.

Mais, avec notre manque de compréhension du fonctionnement de certains modèles, certains ne le font tout simplement pas pour un problème; comment les réseaux de neurones résolvent vraiment des problèmes aussi complexes et bien d'autres choses. Par conséquent, il s'agit encore d'une technologie assez éloignée pour atteindre son plein potentiel.

PS Je suis toujours un débutant dans ce domaine et je pense que mon avis ne compte pas, donc si j'étais redondant quelque part ou si je ne vous donnais pas la réponse attendue, je le regrette sincèrement.


Cette réponse montre la réflexion. Il est vrai aussi que la technologie existante ne montre pas autant de progrès avec le VLSI analogique programmable que le numérique. ... Ce qui est inconnu est le résultat de la R&D de la marine américaine et de la DARPA sur le contrôle analogique, largement financé depuis des décennies. Seuls les documents initiaux ont été déclassifiés. L'ICBM et la technologie de contre-mesure peuvent tous être des circuits de renseignement analogiques dans la gamme 100 GHz. Ou pas. ... Votre écriture n'était ni redondante ni naïve. Certes, dans l'open source, ces technologies commencent tout juste à être vues. Bonne réponse. N'hésitez pas à le laisser tel quel ou à le développer davantage.
FauChristian

2

On peut également aborder la question sous l'angle de la théorie de l'information:

Vous avez le choix entre deux compromis:

Informations analogiques pouvant représenter des informations de manière plus précise / spécifique, mais en quantité limitée.

Des informations numériques qui ne représentent pas entièrement le monde réel, mais peuvent contenir une quantité illimitée d'informations en quelques bits. Un bon exemple pourrait être quelque chose comme une boucle d'incrémentation pour:

i = 0
while True:
   print(i)
   i += 1

Lequel est le plus puissant alors?


C'est généralement vrai. Réfléchissez à ce que cela signifie d'apprendre dans le contexte de l'IA. Nous avons simulé différents types d'apprentissage dans des machines via des systèmes de règles avec des méta-règles, des réseaux artificiels, des extensions de la chaîne de Markov, la logique floue et une grande variété d'autres techniques et architectures. Lors de l'apprentissage, il existe une sorte de comportement optimal que l'apprentissage tente d'acquérir. Comment les systèmes analogiques ou numériques peuvent-ils converger ou suivre (en temps réel) ce comportement optimal, et qui présente un avantage à long terme?
FauChristian

1

Hava Siegelmann

À première vue, l'informatique analogique est supérieure à l'informatique numérique. Les ordinateurs quantiques sont plus rapides que les ordinateurs Von-Neumann et les puces neuromorphiques nécessitent moins d'énergie que les processeurs Intel. D'un point de vue théorique, beaucoup parlent également d'ordinateurs analogiques. Hava Siegelmann a étudié la capacité de super-turing du réseau neuronal, ce qui signifie qu'un ordinateur analogique peut émuler un ordinateur numérique mais pas l'inverse. Alors pourquoi ne pas utiliser l'informatique analogique?

Stephen Wolfram

La raison tient au système éducatif. Les mathématiques classiques enseignées dans les écoles sont des mathématiques analogiques. Il est basé sur des règles de diapositives, un tableau de logarithme et la réflexion dans les circuits. En revanche, penser en valeurs discrètes d'un algorithme et décrire le monde en zéro et en uns est fondamentalement différent et nous conduit à un nouveau type de mathématiques. Stephen Wolfram a expliqué que la compréhension des automates cellulaires est une étape importante pour décrire l'univers et il a raison. Ignorer les mathématiques analogiques et préférer les langages informatiques capables de turing est une méthode puissante en éducation. Cela aide non seulement à se familiariser avec les ordinateurs, mais aussi avec toutes les autres choses comme la médecine, la littérature et l'économie. Même si les machines analogiques sont techniquement supérieures, nous préférons les machines de Turing lentes mais discrètes,

Enseigner les mathématiques

Pour comprendre la différence entre le calcul numérique et analogique, nous devons nous concentrer sur les mathématiques elles-mêmes qui sont utilisées dans les écoles. Si l'idée est de faire avancer le calcul analogique, le type de mathématiques approprié est regroupé autour des champs électriques, de l'intégration et de la différenciation. Dans les écoles, cela est enseigné sous le terme générique "Analyse mathématique". Ce sujet était très important dans le passé, car l'analyse aide à construire des ponts, des machines et des voitures. Dans tous ces domaines, une algèbre vectorielle pour décrire l'espace géométrique est utilisée.

Si le calcul analogique est si puissant, pourquoi quelqu'un a-t-il besoin des mathématiques numériques? Cela a à voir avec l'algorithme. Ce que le planimètre et l'analyseur différentiel n'ont pas à offrir, ce sont les capacités de programmation. Il n'est pas possible de définir des algorithmes et des langages artificiels. Un regard sur l'histoire des mathématiques montre que la théorie des algorithmes n'était pas très courante dans le passé. En mathématiques modernes, il est discuté sous le terme de calcul lambda et de problème d'arrêt .

Le plus drôle, c'est qu'à première vue, le calcul Lamda n'a aucune application pratique. Ce n'est pas nécessaire si quelqu'un veut calculer l'aire d'un pont. La théorie des algorithmes est une école de pensée pour améliorer la pensée critique. C'est une philosophie dont les humains ont besoin, pas les machines.


Ravi que vous ayez mentionné Seigelmann. Le deuxième paragraphe est difficile à suivre logiquement. L'éducation est certainement au cœur de cette question, et le séquençage de l'ADN et l'imagerie numérique ont définitivement amélioré la médecine. Pouvez-vous nous expliquer comment la littérature s'est améliorée? Certains diront que l'informatique numérique a aggravé la volatilité de l'économie, mais plus au cœur des exigences de prime, pourquoi quiconque préférerait le discret lent au continu rapide ne découle pas de la déclaration de Wolfram. Il n'y a aucune référence à la déclaration non plus. Pouvez-vous fournir une référence et fournir la logique manquante?
FauChristian
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.