Le test Lovelace Test 2.0 a-t-il été utilisé avec succès en milieu universitaire?

En octobre 2014, le Dr Mark Riedl a publié une approche pour tester l'intelligence artificielle, appelée "Lovelace Test 2.0" , après avoir été inspirée par le test Lovelace original (publié en 2001). Mark croyait que le test Lovelace original serait impossible à passer, et a donc suggéré une version plus faible et plus pratique.

Le test Lovelace 2.0 suppose que pour qu'une IA soit intelligente, elle doit faire preuve de créativité. Du papier lui-même:

Le test Lovelace 2.0 est le suivant: l'agent artificiel a est mis à l'épreuve comme suit:

a doit créer un artefact o de type t;

o doit être conforme à un ensemble de contraintes C où ci ∈ C est tout critère exprimable en langage naturel;

un évaluateur humain h, ayant choisi t et C, est convaincu que o est une instance valide de t et rencontre C; et

un arbitre humain r détermine que la combinaison de t et C n'est pas irréaliste pour un humain moyen.

Puisqu'il est possible pour un évaluateur humain de proposer des contraintes assez faciles à battre pour une IA, l'évaluateur humain devrait alors continuer à proposer des contraintes de plus en plus complexes pour l'IA jusqu'à ce que l'IA échoue. Le but du test Lovelace 2.0 est de comparer la créativité de différentes IA, et non de fournir une ligne de démarcation précise entre «intelligence» et «non-intelligence» comme le ferait le test de Turing.

Cependant, je suis curieux de savoir si ce test a réellement été utilisé dans un cadre universitaire, ou s'il n'est considéré que comme une expérience de pensée pour le moment. Le test Lovelace semble facile à appliquer en milieu universitaire (il vous suffit de développer des contraintes mesurables que vous pouvez utiliser pour tester l'agent artificiel), mais il peut également être trop subjectif (les humains peuvent être en désaccord sur le bien-fondé de certaines contraintes et savoir si un artefact créatif produit par une IA atteint en fait le résultat final).

history intelligence-testing

— SE gauche sur 10_6_19
source

Non.

TL; DR: Le Lovelace Test 2.0 est très vague, ce qui le rend mal adapté à l'évaluation de l'intelligence. Il est également généralement ignoré par les chercheurs en créativité informatique, qui ont déjà leurs propres tests pour évaluer la créativité.

Réponse plus longue: Selon Google Scholar, il y a 10 références au document "Lovelace Test 2.0". Toutes ces références existent simplement pour signaler que le Lovelace Test 2.0 existe. En fait, au moins deux des articles que j'ai consultés ( Une nouvelle approche pour identifier un comportement conscient de soi humain et FraMoTEC: Un cadre pour la construction d'un environnement de tâche modulaire pour évaluer les systèmes de contrôle adaptatifs ) ont proposé leur propre ont plutôt tests.

L'un des auteurs qui a rédigé l'article FraMoTEC a également rédigé sa thèse sur FraMoTEC et a indirectement critiqué le test Lovelace 2.0 et d'autres tests similaires:

Le problème Piaget-MacGyver Room [Bringsjord et Licato, 2012], le test Lovelace 2.0 [Riedl, 2014] et le problème Toy Box [Johnston, 2010] s'accompagnent tous d'une mise en garde très vague - ces méthodes d'évaluation sont susceptibles de venir avec une évaluation raisonnable de l'intelligence, mais il est très difficile de comparer deux agents (ou contrôleurs) différents qui participent à leurs propres évaluations spécifiques au domaine, ce qui se produit fréquemment lorsque les agents sont adaptés pour réussir des évaluations spécifiques.

Un autre problème majeur avec le test Lovelace 2.0 est qu'il y a une prolifération d' autres tests pour «mesurer» la créativité de l'IA. Evaluating Evaluation: Assessing Progress in Computational Creativity Research , publié par Anna Jordanous en 2011 (3 ans avant l'invention du Lovelace Test 2.0) a analysé des articles de recherche sur la créativité de l'IA et a écrit:

Parmi les 18 articles qui ont appliqué des méthodologies d'évaluation de la créativité pour évaluer la créativité de leur système, aucune n'a émergé comme norme dans la communauté. Le cadre créatif de trépied de Colton ( Colton 2008 ) a été utilisé le plus souvent (6 utilisations), avec 4 articles utilisant les critères empiriques de Ritchie ( Ritchie 2007 ).

Cela laisse 10 articles avec diverses méthodes d'évaluation de la créativité.

Le but de "Evaluating Evaluation" était de normaliser le processus d'évaluation de la créativité, pour éviter la possibilité de stagnation du terrain en raison de la prolifération de nombreux tests de créativité. Anna Jordanous restait toujours intéressée par l'évaluation des tests de créativité, publiant des articles tels que "Stepping Back to Progress Forwards: Setting Standards for Meta-Evaluation of Computational Creativity" et Four PPPPerspectives on Computational Creativity .

"Evaluating Evaluation" fournit quelques commentaires pour expliquer la prolifération des systèmes d'évaluation de la créativité:

Les normes d'évaluation ne sont pas faciles à définir. Il est difficile d'évaluer la créativité et encore plus difficile de décrire comment nous évaluons la créativité, dans la créativité humaine ainsi que dans la créativité informatique. En fait, même la définition même de la créativité est problématique (Plucker, Beghetto et Dow 2004). Il est difficile d'identifier ce qu'implique «être créatif», il n'y a donc pas de repères ou de vérités fondamentales à mesurer.

Le fait qu'il existe déjà tant de tests de créativité (dans la mesure où Jordanous peut faire une carrière universitaire en les étudiant) signifie qu'il est très difficile de remarquer un nouveau test (tel que le test Lovelace 2.0) (beaucoup moins cité ). Pourquoi voudriez-vous utiliser quelque chose comme le Lovelace Test 2.0 alors qu'il y a tant d'autres tests que vous pourriez utiliser à la place?

— SE gauche sur 10_6_19
source