En ce qui concerne la prédiction, les statistiques et les sciences de l'apprentissage automatique ont commencé à résoudre principalement le même problème sous différents angles.
Fondamentalement, les statistiques supposent que les données ont été produites par un modèle stochastique donné. Donc, d'un point de vue statistique, un modèle est supposé et compte tenu de diverses hypothèses, les erreurs sont traitées et les paramètres du modèle et d'autres questions sont déduits.
L'apprentissage automatique vient d'une perspective informatique. Les modèles sont algorithmiques et généralement très peu d'hypothèses sont requises concernant les données. Nous travaillons avec un espace d'hypothèses et un biais d'apprentissage. La meilleure exposition de l'apprentissage machine que j'ai trouvée se trouve dans le livre de Tom Mitchell intitulé Machine Learning .
Pour une idée plus exhaustive et complète des deux cultures, vous pouvez lire l'article de Leo Breiman intitulé Statistical Modeling: The Two Cultures
Cependant, ce qu'il faut ajouter, c'est que même si les deux sciences ont commencé avec des perspectives différentes, toutes deux partagent maintenant une bonne quantité de connaissances et de techniques communes. Pourquoi, parce que les problèmes étaient les mêmes, mais les outils étaient différents. Alors maintenant, l'apprentissage automatique est principalement traité d'un point de vue statistique (consultez le livre Hastie, Tibshirani, Friedman The Elements of Statistical Learning d'un point de vue d'apprentissage automatique avec un traitement statistique, et peut-être le livre de Kevin P. Murphy Machine Learning: A perspective probabiliste , pour ne citer que quelques-uns des meilleurs livres disponibles aujourd'hui).
Même l'histoire du développement de ce domaine montre les avantages de cette fusion de perspectives. Je décrirai deux événements.
Le premier est la création d'arbres CART, qui a été créé par Breiman avec une solide expérience statistique. À peu près au même moment, Quinlan a développé ID3, C45, See5, et ainsi de suite, une suite d'arbre de décision avec une formation plus informatique. Maintenant, ces familles d'arbres et les méthodes d'ensemble comme l'ensachage et les forêts deviennent assez similaires.
La deuxième histoire concerne le boost. Initialement, ils ont été développés par Freund et Shapire lorsqu'ils ont découvert AdaBoost. Les choix pour la conception d'AdaBoost ont été faits principalement d'un point de vue informatique. Même les auteurs n'ont pas bien compris pourquoi cela fonctionne. Seulement 5 ans plus tard, Breiman (à nouveau!) A décrit le modèle adaboost d'un point de vue statistique et a expliqué pourquoi cela fonctionne. Depuis lors, divers scientifiques éminents, avec les deux types de formation, ont développé ces idées menant à une pléiade d'algorithmes de boost, comme le boost logistique, le boost de gradient, le boost doux et ainsi de suite. Il est difficile maintenant de penser à une augmentation sans une solide base statistique.
Les modèles linéaires généralisés sont un développement statistique. Cependant, les nouveaux traitements bayésiens mettent également cet algorithme dans le terrain de jeu de l'apprentissage automatique. Je crois donc que les deux affirmations pourraient être justes, car l'interprétation et le traitement de la façon dont cela fonctionne pourraient être différents.