Qu'est-ce qui motiverait une machine?

12

Actuellement, dans le domaine du développement de l'IA, l'accent semble être mis sur la reconnaissance des formes et l'apprentissage automatique. L'apprentissage consiste à ajuster les variables internes en fonction d'une boucle de rétroaction.

La hiérarchie des besoins de Maslow est une théorie de la psychologie proposée par Abraham Maslow qui prétend que les besoins les plus élémentaires des individus doivent être satisfaits avant de devenir motivés pour atteindre des besoins de niveau supérieur.

Qu'est-ce qui pourrait éventuellement motiver une machine à agir? Une machine devrait-elle avoir une sorte de structure semblable à l'ADN qui décrirait sa hiérarchie de besoins (semblable à la théorie de Maslow)? Quels pourraient être les besoins fondamentaux d'une machine?

philosophy strong-ai rewards

— Aleksei Maide
source

1

Question intéressante et bienvenue dans l'IA! (J'ai quelques réflexions sur le sujet, liées à la théorie des jeux, et d'autres contributeurs ont parlé de l' apprentissage orienté objectif en relation avec les algorithmes.)

— DukeZhou

1

Dire simplement que ce serait une fonction d'utilité . Cette réponse pourrait aider

— Ugnes

5

La méthode actuelle pour mettre en œuvre la motivation est une sorte de récompense artificielle. Le DQN de Deepmind, par exemple, est déterminé par le score du match. Plus le score est élevé, mieux c'est. L'IA apprend à ajuster ses actions pour obtenir le plus de points et donc le plus de récompense. C'est ce qu'on appelle l' apprentissage par renforcement . La récompense motive l'IA à adapter ses actions, pour ainsi dire.

Dans un terme plus technique, l'IA veut maximiser l'utilité, qui dépend de la fonction d'utilité implémentée . Dans le cas de DQN, ce serait maximiser le score dans le jeu.

Le cerveau humain fonctionne de façon similaire, bien qu'un peu plus complexe et souvent pas aussi simple. En tant qu'humains, nous essayons généralement d'ajuster nos actions pour produire un rendement élevé en dopamine et en sérotonine . Ceci est d'une manière similaire à la récompense utilisée pour contrôler les IA pendant l'apprentissage par renforcement. Le cerveau humain apprend quelles actions produisent le plus de ces substances et trouve des stratégies pour maximiser la production. C'est, bien sûr, une simplification de ce processus complexe, mais vous obtenez l'image.

Lorsque vous parlez de motivation, veuillez ne pas mélanger avec la conscience ou les qualia . Ce ne sont pas du tout nécessaires à la motivation. Si vous voulez discuter de la conscience et des qualités en IA, c'est un jeu de balle totalement différent.

Un enfant n'est pas curieux par curiosité. Il obtient un renforcement positif lors de l'exploration, car la fonction d'utilité du cerveau de l'enfant récompense l'exploration en libérant des neurotransmetteurs enrichissants. Le mécanisme est donc le même. Appliquer cela à l'IA signifie définir une fonction utilitaire qui récompense de nouvelles expériences. Il n'y a pas de pulsion intérieure sans une sorte de récompense de renforcement.

— Demento
source

en ce qui concerne l'édition, je pense qu'un bon exemple d'une "fonction d'utilité qui récompense une nouvelle expérience" serait les fonctions de fitness de recherche de nouveauté proposées par ken stanley pour être utilisées dans son algorithme soigné.

— nickw

5

C'est une question intéressante en fait.

Il y a une idée assez réaliste de "d'où peut provenir la curiosité" dans le livre "On intelligence" écrit par Jeff Hawkins et Sandra Blakeslee.

Il est basé sur de telles déclarations:

L'esprit crée son propre modèle du monde dans lequel il existe.
Il fait des prédictions sur tout tout le temps (en fait, Jeff Hawkins déclare que c'est la principale caractéristique de l'intelligence).
Lorsque la prédiction sur quelque chose n'a pas été suivie d'un comportement approprié du monde, cette chose devient très intéressante pour l'esprit (le modèle est erroné et devrait être corrigé) et nécessite plus d'attention.

Par exemple, lorsque vous regardez l'œil humain gauche, votre cerveau prédit qu'il s'agit d'un visage humain et qu'il devrait y avoir un deuxième œil vers la droite. Vous regardez à droite et voyez un .. nez! Quelle surprise! Cela prend maintenant toute votre attention et vous avez cette motivation pour faire plus d'observations sur une chose aussi étrange qui ne correspondait pas à votre modèle.

Je dirais donc que l'IA pourrait faire quelque chose de certain selon son modèle ou se comporter de manière aléatoire alors que les prédictions qu'elle fait sur le monde sont vraies. Mais une fois que certaines prédictions sont brisées, l'IA est motivée à corriger les erreurs de son modèle.

Dans un cas simple, une machine démarre avec un caractère aléatoire total en faisant tout ce qu'elle peut avec sa sortie. Bien qu'il n'ait pas de modèle ou un modèle aléatoire lorsqu'il détecte une sorte d'ordre ou des motifs répétés, il devient "intéressé" et l'ajoute au modèle. Après un certain temps, le modèle devient plus sophistiqué, faisant des prédictions plus complexes et détectant des erreurs de niveau supérieur dans un modèle. Lentement, il apprend quoi faire pour observer quelque chose d'intéressant, au lieu de se souvenir de tout.

— Ivan Bogush
source

Merci pour votre contribution! Je suis arrivé à peu près aux mêmes conclusions ... réfléchissant maintenant à un moyen de le mettre en œuvre :)

— Aleksei Maide

Cette réponse soulève un point important. La correction d'erreurs sur les modèles de prédiction inciterait une IA intelligente à apprendre et à agir de manière curieuse.

— Seth Simba

3

J'ai posé une question similaire au professeur Richard Sutton , lors de la première conférence du cours d'apprentissage par renforcement. Il semble qu'il existe différentes manières de motiver la machine. En fait, la motivation machine me semble être un domaine de recherche dédié.

En règle générale, les machines sont motivées par ce que nous appelons une fonction objective ou une fonction de coût ou une fonction de perte . Ce sont des noms différents pour le même concept. Parfois, ils sont désignés par

L (a)

$L(a)$

L'objectif de la machine est alors de résoudre soit un problème de minimisation, , ou un problème de maximisation, , en fonction de la définition de . $\min_a L(a)$ $\max_a L(a)$ $L$

— A.Rashad
source

1

J'ai réfléchi à ce sujet dans le contexte des jeux.

Le problème avec les fonctions de récompense est qu'elles impliquent généralement des nœuds de pondération, ce qui est utile mais finalement sans signification matérielle.

Voici deux récompenses significatives:

RESSOURCES INFORMATIQUES

Prenons un jeu où une IA ne se bat pas pour des points, mais pour le temps processeur et la mémoire.

Plus l'algorithme fonctionne mieux dans le jeu, plus il dispose de mémoire et de traitement. Cela a un effet pratique - plus les automates disposent de ressources, plus leurs capacités sont fortes. (c'est-à-dire que sa rationalité est moins limitée en termes de temps et d'espace pour prendre une décision.) Ainsi, l'algorithme serait "motivé" à l'emporter sur un tel concours.

ÉNERGIE

Tout automate ayant un degré suffisant de "conscience de soi", se référant ici spécifiquement à la connaissance qu'il nécessite de l'énergie pour être traité, serait motivé à auto-optimiser son propre code pour éliminer le retournement inutile des bits (consommation d'énergie inutile.)

Un tel algorithme serait également motivé pour assurer son alimentation afin qu'il puisse continuer à fonctionner.

— DukeZhou
source