Foundations of Machine Learning , par Mehryar Mohri, Afshin Rostamizadeh et Ameet Talwalkar, est un livre de 2012 sur la théorie de l'apprentissage automatique.
Understanding Machine Learning: From Theory to Algorithms , par Shai Shalev-Shwartz et Shai Ben-David, est un livre similaire de 2014 qui est assez bien connu et qui cible un peu plus l'introduction que Mohri / Rostamizadeh / Talwalkar, mais qui a encore beaucoup de théorie en il. Il est disponible gratuitement en ligne.
Neural Network Learning: Theoretical Foundations , par Martin Anthony et Peter Bartlett, est un livre de 1999 sur la théorie du ML, formulé comme étant sur les réseaux de neurones, mais (à mon impression ne pas l'avoir lu) concerne principalement la théorie du ML en général.
Ces trois livres adoptent principalement le point de vue prédominant de la théorie de l'apprentissage statistique. Il existe également un point de vue intéressant appelé théorie de l'apprentissage informatique , inspiré davantage par la théorie de l'informatique. Je pense que le livre d'introduction standard dans ce domaine est An Introduction to Computational Learning Theory , un livre de 1994 de Michael Kearns et Umesh Vazirani.
Un autre livre excellent et souvent disponible gratuitement est Trevor Hastie, Robert Tibshirani et la deuxième édition de 2009 de The Elements of Statistical Learning de Jerome Friedman . C'est peut-être un peu moins théorique que les autres, et plus du point de vue du statisticien que de celui qui apprend la machine, mais ça a quand même beaucoup d'intérêt.
De plus, si vous vous souciez de la descente de gradient en particulier, la référence standard est l' optimisation convexe de Stephen Boyd et Lieven Vandenberghe. Ce livre de 2004 est disponible gratuitement en ligne.
Aucun de ces livres ne contient beaucoup sur la théorie moderne des réseaux profonds, si c'est ce qui vous intéresse. (Par exemple, la majeure partie de la théorie de l'optimisation concernera les cas convexes, ce que les réseaux profonds ne le sont décidément pas.) C'est parce que cette théorie est très nouvelle; la plupart des résultats ne sont venus qu'au cours des dernières années, et c'est encore beaucoup à comprendre. Mais, comme un aperçu de la compréhension de base du domaine jusqu'à présent, l'un d'eux vous permettra de bien comprendre les articles dans lesquels ce travail est effectué (sauf peut-être Kearns / Vazirani, qui se concentre sur différents aspects de l'analyse que je '' Je ne suis pas sûr d'avoir été appliqué avec succès aux réseaux profonds - pour le moment).