Quels sont les pré-requis mathématiques pour un chercheur en IA?


12

Quelles sont les conditions mathématiques préalables pour comprendre la partie centrale des algorithmes en intelligence artificielle et développer son propre algorithme?

Veuillez me référer les livres spécifiques.

Réponses:


9

Good Mathematics Foundation

Commencez par vous assurer de la pleine compétence en algèbre intermédiaire et en quelques autres fondements du calcul et des mathématiques discrètes, y compris la terminologie et les concepts de base de ces sujets.

  • Série infinie
  • Preuves logiques
  • Algèbre linéaire et matrices
  • Géométrie analytique, notamment la distinction entre les extrêmes locaux et globaux (minima et maxima), les points de selle et les points d'inflexion
  • Théorie des ensembles
  • Probabilité
  • Statistiques

Fondements de la cybernétique

Norbert Wiener, Cybernetics, 1948, MIT Press, contient des séries chronologiques et des concepts de rétroaction avec une clarté et une commande que l'on ne voit pas dans les travaux ultérieurs; il contient également une introduction à la théorie de l'information commençant par la formule log 2 de Shannon pour définir la quantité d'informations dans un bit. Ceci est important pour comprendre l'expansion du concept d'entropie de l'information.

Calcul

Trouvez un bon livre de calcul et assurez-vous d'avoir une clarté sur la théorie et l'application clés dans ces catégories.

  • Des séries chronologiques
  • Série infinie
  • Convergence - Les réseaux artificiels convergent idéalement vers un optimum pendant l'apprentissage.
  • Différentiels partiels
  • Matrices jacobiennes et hessoises
  • Mathématiques multivariées
  • Régions limitrophes
  • Mathématiques discrètes

Une grande partie de cela se trouve dans Calculus , Strang, MIT, Wellesley-Cambridge Press . Bien que le PDF soit disponible sur le Web, il est basique et pas particulièrement profond. Celui de la bibliothèque de notre laboratoire est Intermediate Calculus , Hurley, Holt Rinehart & Winston, 1980 . Il est complet et, à certains égards, mieux présenté que celui que j'ai dans ma bibliothèque personnelle, que Princeton utilise pour les étudiants en deuxième année.

Assurez-vous que vous êtes à l'aise de travailler dans des espaces au-delà de ℝ 2 (au-delà de 2D). Par exemple, les RNN se trouvent souvent dans des espaces tels que thor 4 thorugh ℝ 7 en raison des dimensions horizontales, verticales, de la profondeur des pixels et des images du film.

Finite Math

Il est regrettable qu'aucune combinaison de trois livres auxquels je puisse penser ne possède tous ces éléments.

  • Graphes dirigés - Apprenez ceci AVANT les arbres ou les circuits (filets artificiels) car c'est la topographie surensemble de toutes ces configurations
  • Arbres de symboles abstraits (AST)
  • Théorie des ensembles avancée
  • Arbres de décision
  • Chaînes de Markov
  • Théorie du chaos (en particulier la différence entre aléatoire et pseudo-aléatoire)
  • Game Theory commençant par Von Neumann et Morgenstern's Game Theory , le travail séminal dans ce domaine
  • Convergence dans les systèmes discrets, en particulier l'application de la théorie à la saturation du signal en arithmétique entière, à virgule fixe ou à virgule flottante
  • Moyens statistiques, écarts, corrélation et concepts plus progressifs d'entropie, d'entropie relative et d'entropie croisée
  • Courbe d'ajustement
  • Convolution
  • Probabilité en particulier le théorème de Bayes
  • Théorie algorithmique (théorèmes d'incertitude de Gödel et exhaustivité de Turing)

Chimie et neurologie

Il est bon de rappeler les équilibres chimiques de la chimie du secondaire. L'équilibre joue un rôle clé dans les conceptions d'IA plus sophistiquées. Comprendre la relation symbiotique entre les modèles génératifs et discriminants dans les GAN aidera un étudiant à approfondir cette compréhension.

Les fonctions de contrôle au sein des systèmes biologiques restent une source principale de preuves de concept dans la recherche en intelligence artificielle. Alors que les chercheurs deviennent plus créatifs en imaginant des formes d'adaptation qui n'imitent pas directement certains aspects de la biologie (encore à distance au moment de la rédaction de ce document), la créativité peut jouer un plus grand rôle dans la formulation des objectifs de recherche en IA.

Même ainsi, l'IA restera probablement un domaine largement interdisciplinaire.


2
Quelques commentaires: 1) Je suis d'accord avec ce que John a écrit dans sa réponse, que sa réponse concerne un "noyau" plus général, alors que le vôtre comprend des choses qui peuvent être utiles ou non selon le domaine de l'IA dans lequel quelqu'un entre. 2) Beaucoup de choses que vous décrivez sous "mathématiques du secondaire" ne sont pas (nécessairement) des mathématiques du secondaire, du moins pas en Europe (je ne sais pas pour les États-Unis). Aux Pays-Bas, je n'ai pas vraiment obtenu d'algèbre linéaire, de matrices, de séries infinies ou de théorie des ensembles avant ma première année à l'université. Certains d'entre eux auraient pu apparaître plus tôt si j'avais choisi un ensemble différent de cours au lycée.
Dennis Soemers

2
3) L'analyse fonctionnelle / la théorie de la mesure peut être utile à inclure dans certains domaines. Mais, encore une fois, cela dépend beaucoup de la profondeur à laquelle vous voulez aller en tant que chercheur en IA. Certains chercheurs en IA, du côté plus théorique, trouveront presque tout cela utile. D'autres chercheurs en IA plus empiriques / logiciels / programmation ont besoin de beaucoup, beaucoup moins. Les deux peuvent encore produire des recherches très précieuses.
Dennis Soemers

7

Je travaille en tant que professeur et j'ai récemment conçu les exigences mathématiques pour une nouvelle majeure en IA, en consultation avec plusieurs de mes collègues dans d'autres institutions.

Les autres réponses, en particulier celles de @ FauChrisian, font un bon travail de catalogage de tous les sujets spécifiques qui pourraient être utiles quelque part dans l'IA, mais tous ne sont pas également utiles pour comprendre les sujets de base. Dans d'autres cas, la compréhension du sujet est essentiellement la même que la compréhension des algorithmes liés à l'IA, nous les enseignons donc généralement ensemble au lieu de supposer les connaissances préalables. Par exemple, les processus de décision de Markov ne sont pas difficiles à enseigner à quelqu'un qui connaît déjà les bases de la théorie des graphes et des probabilités, nous les couvrons donc généralement lorsque nous enseignons l'apprentissage par renforcement dans un cours d'IA, plutôt que comme un sujet distinct dans les mathématiques. cours.

Les exigences en mathématiques sur lesquelles nous nous sommes fixés ressemblent à:

  • Un ou deux semestres de cours en mathématiques discrètes. C'est autant pour établir le confort avec la preuve et la rigueur mathématique qu'avec n'importe quel sujet spécifique dans le domaine. Il s'agit principalement de connaissances "fondamentales", mais certaines parties s'avèrent très utiles. Le confort avec des sommations infinies, les bases des graphiques, la combinatoire et l'analyse asymptotique sont peut-être les parties les plus directement applicables. J'aime le livre de Susanna Epp .

    • Un cours d'un ou deux semestres d'algèbre linéaire, utile sur une grande variété de sujets en IA, en particulier l'apprentissage automatique et l'exploration de données. Lay & Lay est un livre correct, mais probablement pas le meilleur absolu. Shilov est une recommandation de Ian Goodfellow et d'autres, mais je ne l'ai pas essayé moi-même.

    • Un cours de probabilité, et peut-être un cours moderne de statistique (c'est-à-dire avec un accent bayésien). Un cours de statistique plus ancien, ou un cours destiné aux spécialistes des sciences sociales, n'est cependant pas très utile. Mes collègues statisticiens utilisent Lock5 en ce moment et ont de bonnes expériences avec lui.

    • Au moins le calcul différentiel et intégral, et de préférence au moins des dérivées partielles dans le calcul vectoriel, mais peut-être tout le cours. Cela est utile dans l'optimisation, l'apprentissage automatique et les approches économiques de l'IA. Stewart est le manuel le plus courant. Il est complet et peut être utilisé pour les trois cours, mais ses explications ne sont pas toujours les meilleures. Je le recommanderais quand même.

Ce sont les sujets principaux. Si vous n'avez pas non plus d'expérience en programmation, un cours de théorie des graphes et les bases de la complexité asymptotique ou de la conception et de l'analyse d'algorithmes pourraient être de bons compléments. Habituellement, les IA sont issus d'une formation informatique standard, qui couvre très bien toutes ces choses.


1
@FauChristian Je pense que nous avons énuméré les mêmes sujets: calcul et mathématiques finies à coup sûr. Nous pensons tous les deux que vous devriez prendre quelques cours dans chacun. J'ai énuméré les statistiques et les probabilités. Je pense que si vous voulez faire du travail moderne en IA, vous n'irez pas loin sans ça. Vous avez énuméré la chimie et les neurosciences. Je pense que peu d'IA'ers considéreraient ces sujets comme des sujets nécessaires. Certes, vous pouvez passer à travers tout Russell & Norvig sans cela. Si vous voulez travailler en neuroscience computationnelle (pas en deep learning), cela pourrait être utile. Je doute aussi que vous ayez besoin de 16 ans pour contribuer. 5-6 pour sûr cependant.
John Doucette

1
@FauChristian C'est tout à fait vrai. J'ai tendance à penser que si vous vouliez faire des recherches dans la plupart des laboratoires d'IA modernes, vous auriez toujours besoin de probabilité (au moins la moitié du travail d'IA moderne est dans une sorte d'apprentissage automatique, et une grande partie de cela est dans l'apprentissage profond) . Il est généralement vrai que les étudiants diplômés effectuent des travaux de recherche. La plupart d'entre eux font des travaux de recherche après seulement 1-2 ans d'études supérieures. Certains sont même assez bons. Ces personnes n'ont eu, au maximum, que 4 à 6 ans d'éducation formelle dans la matière. Plus que cela pourrait vous rendre plus rapide ou plus profond, mais le potentiel de recherche commence là-bas.
John Doucette

3

En ce qui concerne les algorithmes simples comme Gradient Descent, vous devez avoir une bonne compréhension des dérivées partielles. Surtout si vous souhaitez implémenter des réseaux de neurones. De plus, la plupart des algorithmes sont vectorisés pour améliorer la vitesse de calcul et vous devez donc être à l'aise avec les mathématiques matricielles. Cela implique d'être très rapide et confortable avec les dimensions des matrices, les dimensions des produits, la multiplication des matrices, la transposition, etc. Très rarement, vous pouvez utiliser le calcul matriciel pour arriver directement à des solutions optimales, donc quelques résultats dans ce domaine devraient suffire. Passant à autre chose, vous devez comprendre certaines analyses de fonction. cela est nécessaire pour obtenir une intuition sur les fonctions d'activation comme sigmoïde et tanh, log. Une compréhension des probabilités et des attentes est également très utile. Vous devez également être clair avec les vecteurs orthogonaux et les produits internes.

Cela étant dit, je vous suggère de saisir les opérations de base du calcul et de la matrice et d'essayer d'apprendre les concepts de l'IA. Si vous ne pouvez pas comprendre quelque chose, explorez les mathématiques.

Remarque: encore une fois, ce n'est que pour commencer.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.