Dans quelle mesure les «mathématiques avancées» sont-elles nécessaires / utiles dans la recherche sur l'IA?


19

J'étudie actuellement les mathématiques. Cependant, je ne pense pas vouloir devenir mathématicien professionnel à l'avenir. Je pense appliquer mes connaissances en mathématiques pour faire de la recherche en intelligence artificielle. Cependant, je ne sais pas combien de cours de mathématiques je devrais suivre. (Et quels cours de théorie CS je devrais suivre.)

De Quora, j'ai appris que les sujets d'algèbre linéaire, de statistique et d'optimisation convexe sont les plus pertinents pour l'apprentissage automatique (voir cette question). Quelqu'un d'autre a mentionné que l'apprentissage de l'algèbre linéaire, de la probabilité / statistique, du calcul, des algorithmes de base et de la logique est nécessaire pour étudier l'intelligence artificielle (voir cette question).

Je peux en apprendre davantage sur toutes ces matières au cours de mes premiers 1,5 ans de baccalauréat en mathématiques dans notre université.

Je me demandais, cependant, s'il y avait des matières mathématiques de premier cycle, même supérieures, qui sont utiles ou même nécessaires pour étudier l'intelligence artificielle. Qu'en est-il des ODE, des PDE, de la topologie, de la théorie des mesures, de l'analyse linéaire, de l'analyse de Fourier et de l'analyse sur les collecteurs?

Un livre qui suggère que certaines mathématiques assez avancées sont utiles dans l'étude de l'intelligence artificielle est la théorie des motifs: l'analyse stochastique des signaux du monde réel par David Mumford et Agnes Desolneux (voir cette page). Il comprend des chapitres sur les chaînes de Markov, les modèles gaussiens par morceaux, les champs de Gibbs, les collecteurs, les groupes de Lie et les algèbres de Lie et leurs applications à la théorie des modèles. Dans quelle mesure ce livre est-il utile dans la recherche sur l'IA?


22
au cours de mes 2 ans et plus sur ce site, j'ai vu plus d'une demi-douzaine de questions du type "de quelles mathématiques ai-je besoin ...". Que réponses qui se lisent comme le contenu du Princeton Companion to Mathematics. 1) L'IA est un domaine immense, les mathématiques utilisées dans ses sous-domaines sont de toutes sortes; 2) Suivez vos cours de mathématiques de base, choisissez des cours plus avancés en fonction de votre intérêt; 3) Faites des recherches en IA, trouvez ce que vous aimez, trouvez les mathématiques qui y sont utilisées; 4) Nous ne pouvons pas savoir a priori quelles mathématiques seront utiles pour tel ou tel problème.
Sasho Nikolov

Réponses:


57

Je ne veux pas paraître condescendant, mais les mathématiques que vous étudiez au premier cycle et même aux cycles supérieurs ne sont pas avancées. Ce sont les bases . Le titre de votre question devrait être: les mathématiques "de base" sont-elles nécessaires / utiles dans la recherche sur l'IA? Donc, engloutissez autant que vous le pouvez, je n'ai jamais rencontré d'informaticien qui se plaignait de trop connaître les mathématiques, bien que j'en ai rencontré beaucoup qui se plaignaient de ne pas en savoir assez. Je me souviens avoir aidé un autre étudiant diplômé en IA à comprendre un algorithme de style de classement des pages. C'était juste une algèbre linéaire assez facile pour moi, mais il a souffert parce qu'il n'avait aucune idée de ce qu'étaient les valeurs propres et les vecteurs propres. Imaginez les choses que les gens de l'IA pourraient faire s'ils connaissaient réellement beaucoup de mathématiques!

J'enseigne dans un département de mathématiques et je reçois régulièrement des demandes de mes collègues CS pour recommander des majors en mathématiques pour les doctorants CS car ils préfèrent les étudiants en mathématiques. Vous voyez, les mathématiques sont vraiment, vraiment difficiles à apprendre par vous-même, mais la plupart des aspects de l'informatique ne le sont pas. Je sais, j'étais un étudiant en mathématiques qui est entré dans une école supérieure CS. Bien sûr, j'étais "en retard" sur la connaissance des systèmes d'exploitation (malgré une connaissance décente d'Unix et de VMS), mais j'étais bien en avance sur la "théorie". Ce n'est pas une situation symétrique.


6
la théorie de la mesure et la théorie des probabilités sont à la base de tout raisonnement probabiliste. la topologie est devenue très importante pour l'analyse des données topologiques. L'analyse de Fourier est importante pour l'apprentissage de la théorie (elle est utilisée pour comprendre la sensibilité des fonctions et la difficulté de les apprendre), et l'apprentissage multiple nécessite une compréhension approfondie de la géométrie multiple.
Suresh Venkat

2
@MaxMuller: Et pour continuer la liste, la théorie des groupes et les algèbres (comme les algèbres de Lie) sont largement utilisées dans la reconnaissance des formes dans la théorie de la décomposition des images où la topologie est fortement requise (et il existe un lien profond entre les algèbres de Lie et les variétés que vous devez apprendre en cours de route). Des livres tels que "Fundamentals of Pattern Recognition" de Monique Pavel vous présenteront même la théorie des catégories et son application, qui est également extrêmement importante en IA car elle est utilisée dans les fondements des langages formels et de la théorie des preuves (qui peut être une théorie du raisonnement) ...
ex0du5

1
Cours de diplômés de niveau d'introduction passées, les mathématiciens apprennent tous leurs calculs sur leur propre (ou en groupes et séminaires de lecture) .. il est pas tout ce que difficile si vous avez des fondations ... ok, il peut être difficile, mais pas impossible.
Sasho Nikolov

1
Max, j'enseigne aussi l'aïkido. Je ne me souviens d'aucun étudiant d'aïkido demandant "pourquoi dois-je apprendre les bases (comment tomber, comment sortir de la ligne d'attaque)?" Parfois, vous devez avoir un peu confiance que vos enseignants savent ce qu'ils font. Je serai cependant le premier à admettre que nous enseignons beaucoup de conneries, surtout dans les lycées et les écoles primaires où les mathématiques sont enseignées comme si le but était d'étouffer la curiosité des élèves. Mais dans votre cas, les sujets que vous avez énumérés ne sont pas de la merde. Croyez-moi.
Andrej Bauer

13
Et encore un commentaire. Si vous apprenez uniquement des mathématiques qui se sont déjà avérées utiles dans certains domaines de la CS, vous n'aurez jamais la possibilité d'appliquer de nouvelles mathématiques. Tu seras toujours derrière. La science est un art, pas un travail de 9 à 5. Si vous me demandez "si j'apprends la physique, je veux entrer dans l'IA", je répondrai "absolument!" Et si vous demandez "si j'apprends la sociologie, je veux me lancer dans l'IA", ma réponse sera toujours la même.
Andrej Bauer

6

Max, voici une liste (nécessairement) partielle:

L'algèbre linéaire de base et la probabilité sont nécessaires partout. Je suppose que vous n'avez pas besoin de références pour cela.

À ma connaissance, l'analyse de Fourier a été utilisée dans certaines recherches liées à la théorie de l'apprentissage. Consultez ce document , par exemple.

Le concept d'apprentissage multiple devient populaire, et vous pouvez commencer à jeter un œil aux œuvres de Mikhail belkin et Partha Niyogi. Cette ligne de travail nécessite la compréhension de divers concepts liés aux variétés et à la géométrie riemannienne.

Il existe un autre aspect de l'apprentissage automatique, qui a des racines plus profondes dans les statistiques, à savoir la géométrie de l'information. Cette zone est liée à divers concepts de la géométrie riemannienne, de la théorie de l'information, de l'information de Fisher, etc.

Sumio Watanabe, a étudié une autre frontière, à savoir, l'existence de singularités dans les modèles d'apprentissage et comment appliquer les résultats profonds des résolutions de la géométrie algébrique pour répondre à de nombreuses questions. Les résultats de Watanabe s'appuient largement sur le célèbre travail de Heisuke Hironaka qui lui a valu la médaille Fields.

Je suppose que j'omet de nombreux autres domaines qui nécessitent des calculs relativement lourds. Mais comme Andrej l'a souligné, la plupart d'entre eux ne se situent probablement pas aux frontières des mathématiques, mais sont des domaines relativement anciens et établis.

Quoi qu'il en soit, je suppose que l'état actuel de l'IA qui est entré dans l' informatique grand public - comme dans les systèmes de recommandation d'Amazon ou les bibliothèques d'apprentissage automatique trouvées dans Apache Mahout, ne nécessite aucun calcul avancé. J'ai peut-être tort.


2

Cela dépend de votre définition de avancé et du type d'IA que vous souhaitez étudier.

De nombreux problèmes en IA sont prouvables - les solutions optimales aux POMDP sont sans aucun doute NP-Complete, les solutions optimales aux DEC-POMDPs sont sans doute NEXP-Complete, etc. Donc, en l'absence de percée inattendue dans la théorie de la complexité, plus on en sait sur les algorithmes d'approximation et leurs fondements théoriques, mieux c'est. (En plus de la théorie des mesures, etc., il fallait vraiment comprendre la probabilité bayésienne qui sous-tend le modèle POMDP.)

L'intelligence artificielle multi-agents, en particulier, recoupe la théorie des jeux; il est donc utile de connaître la théorie des jeux qui dépend à son tour de la topologie, de la théorie des mesures, etc. Et de même, de nombreux problèmes en théorie des jeux sont insolubles. Certains sont même intraitables sous l'approximation et même la compréhension quand il est possible d'approximer utilement prend une quantité considérable de mathématiques à travailler.

(Je note que les théoriciens du jeu ont eu un assez bon parcours dans le domaine de l'économie Nobel, au cours des dernières années, et c'est de nature fortement mathématique. Je prédis que dans vingt années impaires, les théoriciens du jeu algorithmique d'aujourd'hui seront à peu près les mêmes position.)


1

Les mathématiques impliquées dans l'IA ne sont pas avancées et sont enseignées au premier cycle. Les algorithmes de formation et d'inférence de l'IA sont dans le domaine de l'informatique avancée.

C'est un peu un jeu de mots. Un peu d'histoire devrait également être incluse lors de la recherche sur l'IA.

Par exemple, dans la nomenclature actuelle, le Deep Learning semble être un mot-clé tendance en IA.

L'apprentissage profond est ce que l'on appelait auparavant les réseaux de neurones artificiels (RNA) tels que le modèle de réseau de perceptrons rétropropagation de Hinton (BACKPROP), etc.

Les mathématiques impliquées avec un ANN BACKPROP (par exemple) sont essentiellement le calcul dérivé pour la formation et l'algèbre matricielle pour l'inférence.

Le nouvel aspect du Deep Learning est la séparation physique des algorithmes de formation et d'inférence. Les CPU sont toujours utilisés pour la formation, mais maintenant les GPU sont utilisés pour l'inférence.

Par exemple, les matrices ANN sont entraînées (pondérées) par rétropropagation des erreurs à l'aide du calcul dérivé correctif. Cela convient mieux aux processeurs et ne doit être effectué qu'une fois par déploiement ANN.

L'ANN est ensuite déployé dans une architecture GPU hautement parallélisée. Les mathématiques d'inférence directe impliquent une algèbre matricielle intensive, pour laquelle les GPU sont conçus.

Cela augmente les performances d'un ANN déployé de plusieurs ordres de grandeur par rapport aux déploiements précédents basés sur le processeur, et peut être mis à l'échelle plus efficacement sur n'importe quel nombre de GPU dédiés.

Des sociétés telles que Nvidia et AMD commercialisent désormais des chipsets GPU très haut de gamme en tant que Deep Learning Machines. Le terme GPU a toujours été un peu impropre, car ce sont vraiment des processeurs parallèles à usage général. Par exemple, les GPU sont parfois appelés Bitminers dans les applications blockchain.

Ce qui était ancien est donc nouveau. Les mathématiques impliquées n'ont pas changé, juste la terminologie de l'informatique (principalement en raison des pressions marketing).

Le terme IA a toujours été considéré comme un cheval noir. Le Deep Learning est désormais le terme politiquement correct et favorable au marché.


2
Une réponse précédente a déjà donné des contre-exemples à votre demande dans la première phrase. (Il y en a aussi beaucoup d'autres.) Avez-vous lu les réponses précédentes avant de poster? Vous souhaiterez peut-être modifier cette réponse pour affiner vos revendications.
DW

2
Votre affirmation selon laquelle "les CPU sont encore utilisés pour la formation [réseaux profonds], mais maintenant les GPU sont utilisés pour l'inférence" est assez trompeuse (sinon incorrecte). Tout le monde s'entraîne sur les réseaux neuronaux modernes sur GPU. La plupart des gens les déploient également sur des GPU, mais certains environnements de déploiement (par exemple certains téléphones portables) utilisent toujours des processeurs.
Mike Izbicki

Je suis d'accord avec Mike. "Les GPU sont utilisés pour la formation et les CPU pour l'inférence" est moins incorrect que de dire que "les CPU sont utilisés pour la formation et les GPU pour l'inférence"
ASDF

Les architectures @MikeIzbicki Pipeline telles que CUDA, OpenCL, etc. sont nécessaires pour la formation en Deep Learning, qui s'appuie fortement sur les cœurs CPU pour la correction des erreurs. Les pipelines d'inférence nécessitent uniquement des cœurs CPU pour alimenter et récolter les cœurs GPU. La puissance et l'efficacité thermique sont l'objectif, c'est pourquoi l'équilibre entre les types de noyau passe de l'entraînement à l'inférence. C'est ce que j'ai déjà dit.
Birkensocks

-1

L'IA est un domaine incroyablement large avec un large éventail de routes possibles. Certains sont extrêmement mathématiques, certains touchent à peine les mathématiques. D'autres ont déjà donné de bonnes réponses pour les approches plus mathématiques. Parmi les sujets que vous avez mentionnés -

"Algèbre linéaire, probabilité / statistique, calcul, algorithmes de base et logique"

-vous avez essentiellement besoin ou bénéficierez de tous. De nombreuses approches sont au moins en partie directement basées sur les probabilités et les statistiques - heuristique, réseaux de neurones, algorithmes génétiques, logique floue. Le calcul est également utile - en IA ou en informatique générale, vous le trouverez presque partout. L'algèbre linéaire est également quelque chose dont vous avez absolument besoin.

Les deux sujets les plus essentiels du point de vue CS / AI sont les algorithmes et la logique, les algorithmes sont le véritable cœur de l'informatique et la logique est le «langage» sous-jacent des algorithmes. La clé de l'apprentissage des algorithmes est cependant d'apprendre à programmer, la compétence et la pratique de la programmation de base est l'un des fondements les plus importants de presque tous les sujets de l'informatique ou de l'IA. La programmation est également une compétence que les universités ne sont pas toujours particulièrement douées pour enseigner. La logique est également vraiment essentielle pour la plupart des branches de l'IA; Logique booléenne, calcul des prédicats, logique symbolique, théories sous-jacentes de la permutation, hiérarchie de la conception, récursivité, machines à états finis, machines de Turing, conception du CPU, etc.

S'étendre à mon propre domaine des mathématiques de l'IA forte joue un rôle sous-jacent mais absolument essentiel. Une très bonne compréhension des mathématiques de base est probablement plus importante que des mathématiques supérieures, mais vraiment tout ce que vous prenez peut être utile. Le vrai problème dans un champ naissant comme Strong AI est que tout est en l'air et donc le champ est en flux total.
Les sujets potentiellement utiles comprennent - les réseaux de neurones, les algorithmes génétiques, la neurologie, la génétique, la psychologie, la cybernétique et la robotique, la théorie graphique 3D, la théorie du traitement d'image, la conception de jeux informatiques, la philosophie, la théorie de l'art, l'électronique numérique, la théorie linguistique. comme cette lecture est l'un des moyens les plus importants d'apprendre. Quelques livres qui ont été des points de départ pour moi étaient - The Emperors New Mind de Roger Penrose, Eye and Brain de RL Gregory, mais vraiment les idées peuvent venir de presque n'importe où

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.