Manuel sur la * théorie * des réseaux de neurones / algorithmes ML?


23

Chaque manuel que j'ai vu jusqu'à présent décrit les algorithmes ML et comment les implémenter.

Existe-t-il également un manuel qui construit des théorèmes et des preuves du comportement de ces algorithmes? Par exemple, en déclarant que dans les conditions , la descente de gradient conduira toujours à ?X,y,zUNE,B,C


1
Il y a quelques suggestions à ma question ici . Vous apprécierez en particulier le livre que je recommande dans ma réponse.
Jack M

De nombreux manuels d'optimisation fournissent des preuves de convergence pour les algorithmes d'optimisation. (Nous devons vérifier soigneusement que les hypothèses de ces théorèmes de convergence sont satisfaites avant de tirer une conclusion ferme que notre algorithme est garanti de converger.)
littleO

Réponses:


16

Foundations of Machine Learning , par Mehryar Mohri, Afshin Rostamizadeh et Ameet Talwalkar, est un livre de 2012 sur la théorie de l'apprentissage automatique.

Understanding Machine Learning: From Theory to Algorithms , par Shai Shalev-Shwartz et Shai Ben-David, est un livre similaire de 2014 qui est assez bien connu et qui cible un peu plus l'introduction que Mohri / Rostamizadeh / Talwalkar, mais qui a encore beaucoup de théorie en il. Il est disponible gratuitement en ligne.

Neural Network Learning: Theoretical Foundations , par Martin Anthony et Peter Bartlett, est un livre de 1999 sur la théorie du ML, formulé comme étant sur les réseaux de neurones, mais (à mon impression ne pas l'avoir lu) concerne principalement la théorie du ML en général.

Ces trois livres adoptent principalement le point de vue prédominant de la théorie de l'apprentissage statistique. Il existe également un point de vue intéressant appelé théorie de l'apprentissage informatique , inspiré davantage par la théorie de l'informatique. Je pense que le livre d'introduction standard dans ce domaine est An Introduction to Computational Learning Theory , un livre de 1994 de Michael Kearns et Umesh Vazirani.

Un autre livre excellent et souvent disponible gratuitement est Trevor Hastie, Robert Tibshirani et la deuxième édition de 2009 de The Elements of Statistical Learning de Jerome Friedman . C'est peut-être un peu moins théorique que les autres, et plus du point de vue du statisticien que de celui qui apprend la machine, mais ça a quand même beaucoup d'intérêt.

De plus, si vous vous souciez de la descente de gradient en particulier, la référence standard est l' optimisation convexe de Stephen Boyd et Lieven Vandenberghe. Ce livre de 2004 est disponible gratuitement en ligne.

Aucun de ces livres ne contient beaucoup sur la théorie moderne des réseaux profonds, si c'est ce qui vous intéresse. (Par exemple, la majeure partie de la théorie de l'optimisation concernera les cas convexes, ce que les réseaux profonds ne le sont décidément pas.) C'est parce que cette théorie est très nouvelle; la plupart des résultats ne sont venus qu'au cours des dernières années, et c'est encore beaucoup à comprendre. Mais, comme un aperçu de la compréhension de base du domaine jusqu'à présent, l'un d'eux vous permettra de bien comprendre les articles dans lesquels ce travail est effectué (sauf peut-être Kearns / Vazirani, qui se concentre sur différents aspects de l'analyse que je '' Je ne suis pas sûr d'avoir été appliqué avec succès aux réseaux profonds - pour le moment).


Comprendre l'apprentissage automatique est disponible en ligne sur la page Web d'un auteur.
Jakub Bartczuk

2

L'apprentissage automatique: une perspective probabiliste par Kevin P. Murphy explique beaucoup de théorie d'un point de vue bayésien (je ne l'ai utilisé que pour la régression logistique, mais je pensais que c'était assez bon). L'ensemble du livre est disponible en ligne au format PDF en effectuant une recherche sur Google.


2
  • Deep Learning (série Adaptive Computation et Machine Learning) . Ceci est écrit par Ian Goodfellow, Yoshua Bengio, Aaron Courville . Conformément à l'accord de l'auteur avec MIT Press, vous pouvez lire la copie légale gratuite disponible sur le navigateur de ce site Web. www.deeplearningbook.org C'est bon pour les mathématiques pures et la théorie du réseau neuronal et ses différentes sous-branches.

De plus,

  • The Elements of Statistical Learning: Data Mining, Inference, and Prediction est également un bon livre pour construire les bases théoriques et mathématiques de l'apprentissage automatique traditionnel. Ceci est écrit par Trevor Hastie, Robert Tibshirani et Jerome Friedman et disponible gratuitement par les auteurs à https://web.stanford.edu/~hastie/ElemStatLearn/

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.