Ce que nous savons
Selon une page de la Banque mondiale , "Aujourd'hui, il y a environ 200 millions d'étudiants dans le monde, contre 89 millions en 1998". Au moins 1 sur 100 a, en tant qu'exigence mathématique, dû développer une preuve pour un théorème et vivre au moins 40 ans après.
Bien qu'il existe au moins 20 millions de réseaux de neurones qui peuvent prouver un théorème, ils sont loin d'exemples qui répondraient à cette question par l'affirmative. Ces réseaux de neurones sont biologiques, non artificiels, et ils ont surtout prouvé des théorèmes déjà prouvés, pas la conjecture de Collatz ou la conjecture de Riemann.
Ce que certains croient
Ceux qui croient que les dispositifs d'apprentissage en profondeur et basés sur l'attention seront rejoints par d'autres conceptions de systèmes d'apprentissage jusqu'à ce que les facultés du cerveau humain soient simulées et peut-être dépassées, incluraient probablement le théorème prouvant comme l'une de ces capacités humaines. Ceux-ci déclareraient probablement la logique et l'inférence des prédicats comme une autre fonction cognitive complexe qui sera réalisée dans les systèmes artificiels.
Ceux qui croient que certaines capacités sont imprégnées d'humains et sont des capacités réservées, peuvent déclarer que la logique et l'inférence des prédicats sont réservées aux seuls humains.
État d'avancement actuel
Il n'y a pas d'articles académiques indiquant la capacité de prouver même les preuves les plus simples en utilisant la logique et l'inférence des prédicats. Il est possible qu'un gouvernement ou une entreprise privée ait réussi à atteindre un certain niveau, mais cela n'a pas été divulgué.
L'idée que les réseaux artificiels, s'ils étaient développés de manière appréciable, pouvaient dépasser les systèmes de production, les systèmes d'IA basés sur des productions ou des règles, dans leurs domaines de plus grande efficacité a été proposée au début du développement de l'IA. Il était contesté à l'époque et contesté maintenant, mais les arguments ne sont pas mathématiques, donc rien n'indique clairement que cela soit impossible.
Il est certain que d'autres aspects cognitifs de la pensée humaine sont des objectifs importants de la recherche sur l'IA. Le dialogue, l'éducation automatisée, la planification, l'analyse stratégique et le pilotage de véhicules sont tous des aspects de la pensée supérieure qui exigent plus que le DQN et les approches de réseau basées sur l'attention, mais les efforts de recherche dans ces domaines sont appréciables et bien financés.
Approche potentielle
La recherche de capacités cognitives logiques devrait débuter des preuves déjà connues, bien plus simples que les conjectures mentionnées dans la question. Par exemple, il a été prouvé que la somme de deux entiers non négatifs doit être un autre entier non négatif. Dans le calcul des prédicats, cela peut être représenté par une chaîne de caractères.
∀ a ∈ C, b ∈ C: s = a + b⟹s ∈ C
Il dit que a et b étant membres de l'ensemble des nombres de comptage, que les s, définis comme la somme des deux, doivent également être membres de l'ensemble des nombres de comptage. Sa preuve peut également être représentée comme une séquence de chaînes de caractères de calcul de prédicat de premier ordre.
Pas de petit projet de recherche
Un tel exemple peut sembler simple à quelqu'un qui a suivi des années de cours de mathématiques et qui a construit des preuves. Ce n'est pas simple pour un enfant, et il est très difficile de faire converger un réseau artificiel vers une fonction qui applique toutes les règles d'inférence logique et incorpore des méta-règles pour arriver à la preuve d'un système formel tel que l'arithmétique entière.
Turing réseaux complets, tels que les RNN, auront certainement des avantages par rapport aux MLP (perceptrons multicouches). Les réseaux basés sur l'attention peuvent être une option de recherche raisonnable. Il y en a d'autres indiqués dans les références ci-dessous.
Une plate-forme informatique parallèle serait nécessaire pour la recherche, car le vecteur d'entrée peut être des centaines de kilo-octets. Il est difficile d'estimer la taille des exemples et le nombre nécessaire sans un an ou deux dans le processus de recherche.
La définition des nombres de comptage, le signe plus et le signe égal doivent d'abord être définis, et ces définitions et un certain nombre d'axiomes, postulats, lemmes et corollaires doivent faire partie de l'exemple d'entrée sous la forme formelle comme la proposition à être prouvé ci-dessus, avec cette proposition.
Et c'est le travail pour préparer un seul exemple. Vous auriez besoin de milliers pour former des connaissances intuitives sur les règles d'inférence dans un réseau profond. (J'ai choisi le mot INTUITIF très délibérément pour des raisons théoriques qui prendraient au moins une centaine de pages pour bien expliquer.)
Ce n'est pas un petit projet car l'ensemble de données d'exemple doit avoir au moins quelques milliers de cas, et chaque cas, bien qu'il puisse partager une certaine théorie, doit être mis en place afin que la proposition soit parfaitement formée et que le corps de théorie nécessaire soit également présenté. en parfait état à l'entrée de chaque itération d'entraînement.
Je suppose qu'il faudrait environ dix ans à une équipe de chercheurs brillants ayant une compréhension appropriée des réseaux profonds, de la convergence et du calcul des prédicats pour former un réseau à fournir des preuves viables en réponse à de simples propositions mathématiques.
Mais ce ne serait pas une petite réussite
Cela peut sembler une entreprise absurde pour certains, mais ce serait la première fois que quelqu'un apprend à un ordinateur à être logique. Il a fallu à la nature juste sous l'âge de la terre pour enseigner l'inférence logique à un organisme, Socrate.
Les gens supposent que parce qu'un ordinateur est composé de circuits numériques qui exécutent la logique par conception, les ordinateurs sont logiques. Quiconque a été dans le développement de logiciels pendant des décennies avec une tendance à penser plus profondément que le piratage pour le plaisir ou l'argent sait différemment. Même après une programmation minutieuse, les ordinateurs ne simulent pas d'inférence logique et ne peuvent pas corriger leur propre comportement programmé pour tout bug arbitraire. En fait, la plupart des développements logiciels aujourd'hui consistent à corriger des bogues.
La simulation de la pensée logique serait une étape majeure vers la simulation de la cognition et d'un éventail plus large de capacités humaines.
Les références
Apprendre à composer des réseaux de neurones pour répondre aux questions Jacob Andreas, Marcus Rohrbach, Trevor Darrell et Dan Klein UC, Berkeley 2016
https://arxiv.org/pdf/1601.01705.pdf
Apprendre plusieurs couches de représentation Geoffrey E. Hinton Département d'informatique, Université de Toronto 2007
http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf
Neural Turing Machine (slideshow) Auteur: Alex Graves, Greg Wayne, Ivo Danihelka Présenté par: Tinghui Wang (Steve)
https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf
Neural Turing Machines (papier) Alex Graves, Greg Wayne, Ivo Danihelka
https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf
2014
Renforcement de l'apprentissage, Neural Turing Machines Wojciech Zaremba, Ilya Sutskever ICLR conference paper
https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer
2016
Machine de Turing Neural Dynamique avec des Schémas d'Adressage Continus et Discrets Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1
https://arxiv.org/pdf/1607.00036.pdf
2017
Un réseau neuronal flou auto-construit en ligne et ses applications Chia-Feng Juang et Chin-Teng Lin IEEE Transactions on Fuzzy Systems, v6, n1 1998
https://ir.nctu.edu.tw/bitstream/11536/ 32809/1 / 000072774800002.pdf
Gated Graph Sequence Neural Networks Yujia Li et Richard Zemel ICLR conference paper 2016
https://arxiv.org/pdf/1511.05493.pdf
Construire des machines qui apprennent et pensent comme des personnes Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum et Samuel J. Gershman Behavioral and Brain Sciences 2016
https://arxiv.org/pdf/1604.00289.pdf
Réseaux neuronaux profonds pré-formés dépendant du contexte pour la reconnaissance vocale à grand vocabulaire George E. Dahl, Dong Yu, Li Deng et Alex Acero Transactions IEEE sur l'audio, le discours et le traitement du langage 2012
https://s3.amazonaws.com/ academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expires = 1534211789 & Signature = 33QcFP0JGFeA% 2FTsqjQZpXYrIGm8% 3D_repon_Force_Conf
Incorporation d'entités et de relations pour l'apprentissage et l'inférence dans les bases de connaissances Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 et Li Deng2 Document de conférence ICLR 2015
https://arxiv.org/pdf/1412.6575.pdf
Un algorithme d'apprentissage rapide pour les réseaux de croyances profondes Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (communiqué par Yann Le Cun) Neural Computation 18 2006
http://axon.cs.byu.edu/Dan/778/papers/Deep % 20Réseaux / hinton1 * .pdf
FINN: A Framework for Fast, Scalable Binarized Neural Network Inference Yaman Umuroglu, et al 2016
https://arxiv.org/pdf/1612.07119.pdf
De l'apprentissage machine au raisonnement machine Léon Bottou 08/02/2011
https://arxiv.org/pdf/1102.1808.pdf
Deep learning Yann LeCun1,2, Yoshua Bengio3 & Geoffrey Hinton4,5 Nature vol 521 2015
https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf