Les références sont très appréciées.
Un auteur devrait aborder la question du contexte et de la pertinence de ses résultats au début de sa publication. Je viens de survoler l'introduction de "L. Valiant. Une théorie de l'apprentissage. Communications de l'ACM, 27, 1984." encore une fois, et a découvert que Valiant a bien couvert votre question.
Le papier original de Valiant est à la fois disponible gratuitement et pas trop difficile à lire. (Sauf la section 7, qui prouve seulement que l'auteur peut également s'attaquer à des problèmes mathématiques difficiles, mais ne contribue pas beaucoup au contenu réel de l'article.) Lire au moins son introduction sera plus gratifiant que de lire ma réponse trop longue à cette question, donc je suggère de vraiment l'essayer.
Le reste de cette réponse tente de citer quelques passages de l'introduction qui devraient indiquer si la lecture de cette introduction pourrait répondre à la question sur le contexte historique. Notez cependant qu'un auteur a la prérogative naturelle d'être biaisé à l'égard de telles questions.
... un tel système serait, au moins, un très bon début. Premièrement, lorsque l'on examine les exemples les plus célèbres de systèmes qui incarnent des connaissances préprogrammées, à savoir des systèmes experts tels que DENDRAL et MYCIN , essentiellement aucune notation logique au-delà du calcul propositionnel n'est utilisée.
Cette information est intéressante pour le contexte, car le calcul propositionnel est nettement plus faible que le calcul prédicatif ou les différents systèmes de théorie des types parfois utilisés aujourd'hui. (Assez étrange cependant, Prolog (1972) et ML (1973) étaient, entre autres, destinés à être des méta-langages pour de "tels" systèmes experts, et semblent aller au-delà de la simple logique propositionnelle pour autant que je puisse voir. En outre, le modèle relationnel ( 1969) pour la gestion de base de données est revendiquée être basée sur la logique sous- jacente.)
La principale découverte technique contenue dans l'article est peut-être qu'avec cette notion probabiliste d'apprentissage, l'apprentissage hautement convergent est possible pour des classes entières de fonctions booléennes. Cela semble distinguer cette approche des approches plus traditionnelles où l'apprentissage est considéré comme un processus consistant à "induire" une règle générale à partir d'informations insuffisantes pour permettre une déduction fiable.
Je suis entièrement d'accord ici. Il est important de pouvoir expliquer comment votre solution est capable de résoudre un problème donné, et dans quel sens c'est une solution. Sinon, vous vous retrouvez avec des théorèmes de "déjeuner sans frais" qui ne vous permettent pas de distinguer une implémentation boguée d'une heuristique douteuse d'une implémentation correcte d'une heuristique appropriée.
En résumé, cet article tente d'explorer les limites de ce qui peut être appris, comme le permet la complexité algorithmique. Les résultats se distinguent de la diversité des travaux antérieurs sur l'apprentissage, car ils tentent de concilier les trois propriétés ((1) - (3)) mentionnées précédemment. La plus rigoureuse de notre approche est la littérature sur l'inférence inductive [...]. Il existe un vaste corpus de travaux sur la reconnaissance et la classification des formes, utilisant des outils statistiques et autres [...]. L'apprentissage, dans divers sens moins formels, a été largement étudié comme une branche de l'intelligence artificielle.
Les propriétés ((1) - (3)) étaient que (1) "les machines peuvent de manière prouvée apprendre des classes de concepts caractérisables entières" qui sont (2) "appropriées et non triviales pour les connaissances générales" et (3) "le calcul processus ne nécessite qu'un nombre d'étapes réalisables (c'est-à-dire polynomiales) ".