Le GLM est-il un modèle statistique ou d'apprentissage automatique?


11

Je pensais que le modèle linéaire généralisé (GLM) serait considéré comme un modèle statistique, mais un ami m'a dit que certains articles le classaient comme une technique d'apprentissage automatique. Laquelle est vraie (ou plus précise)? Toute explication serait appréciée.


1
Je pense que l'apprentissage automatique est généralement une application de la modélisation statistique, donc je dirais que c'est les deux.
joews

Réponses:


21

Un GLM est absolument un modèle statistique, mais les modèles statistiques et les techniques d'apprentissage automatique ne s'excluent pas mutuellement. En général, les statistiques se préoccupent davantage de déduire des paramètres, alors qu'en apprentissage automatique, la prédiction est le but ultime.


15

En ce qui concerne la prédiction, les statistiques et les sciences de l'apprentissage automatique ont commencé à résoudre principalement le même problème sous différents angles.

Fondamentalement, les statistiques supposent que les données ont été produites par un modèle stochastique donné. Donc, d'un point de vue statistique, un modèle est supposé et compte tenu de diverses hypothèses, les erreurs sont traitées et les paramètres du modèle et d'autres questions sont déduits.

L'apprentissage automatique vient d'une perspective informatique. Les modèles sont algorithmiques et généralement très peu d'hypothèses sont requises concernant les données. Nous travaillons avec un espace d'hypothèses et un biais d'apprentissage. La meilleure exposition de l'apprentissage machine que j'ai trouvée se trouve dans le livre de Tom Mitchell intitulé Machine Learning .

Pour une idée plus exhaustive et complète des deux cultures, vous pouvez lire l'article de Leo Breiman intitulé Statistical Modeling: The Two Cultures

Cependant, ce qu'il faut ajouter, c'est que même si les deux sciences ont commencé avec des perspectives différentes, toutes deux partagent maintenant une bonne quantité de connaissances et de techniques communes. Pourquoi, parce que les problèmes étaient les mêmes, mais les outils étaient différents. Alors maintenant, l'apprentissage automatique est principalement traité d'un point de vue statistique (consultez le livre Hastie, Tibshirani, Friedman The Elements of Statistical Learning d'un point de vue d'apprentissage automatique avec un traitement statistique, et peut-être le livre de Kevin P. Murphy Machine Learning: A perspective probabiliste , pour ne citer que quelques-uns des meilleurs livres disponibles aujourd'hui).

Même l'histoire du développement de ce domaine montre les avantages de cette fusion de perspectives. Je décrirai deux événements.

Le premier est la création d'arbres CART, qui a été créé par Breiman avec une solide expérience statistique. À peu près au même moment, Quinlan a développé ID3, C45, See5, et ainsi de suite, une suite d'arbre de décision avec une formation plus informatique. Maintenant, ces familles d'arbres et les méthodes d'ensemble comme l'ensachage et les forêts deviennent assez similaires.

La deuxième histoire concerne le boost. Initialement, ils ont été développés par Freund et Shapire lorsqu'ils ont découvert AdaBoost. Les choix pour la conception d'AdaBoost ont été faits principalement d'un point de vue informatique. Même les auteurs n'ont pas bien compris pourquoi cela fonctionne. Seulement 5 ans plus tard, Breiman (à nouveau!) A décrit le modèle adaboost d'un point de vue statistique et a expliqué pourquoi cela fonctionne. Depuis lors, divers scientifiques éminents, avec les deux types de formation, ont développé ces idées menant à une pléiade d'algorithmes de boost, comme le boost logistique, le boost de gradient, le boost doux et ainsi de suite. Il est difficile maintenant de penser à une augmentation sans une solide base statistique.

Les modèles linéaires généralisés sont un développement statistique. Cependant, les nouveaux traitements bayésiens mettent également cet algorithme dans le terrain de jeu de l'apprentissage automatique. Je crois donc que les deux affirmations pourraient être justes, car l'interprétation et le traitement de la façon dont cela fonctionne pourraient être différents.


5

En plus de la réponse de Ben, la distinction subtile entre les modèles statistiques et les modèles d'apprentissage automatique est que, dans les modèles statistiques, vous décidez explicitement de la structure de l'équation de sortie avant de construire le modèle. Le modèle est construit pour calculer les paramètres / coefficients.

Prenez le modèle linéaire ou GLM par exemple,

y = a1x1 + a2x2 + a3x3

Vos variables indépendantes sont x1, x2, x3 et les coefficients à déterminer sont a1, a2, a3. Vous définissez ainsi la structure de votre équation avant de construire le modèle et calculez a1, a2, a3. Si vous pensez que y est en quelque sorte corrélé à x2 de manière non linéaire, vous pouvez essayer quelque chose comme ça.

y = a1x1 + a2(x2)^2 + a3x3.

Ainsi, vous mettez une restriction en termes de structure de sortie. Les modèles statistiques sont intrinsèquement des modèles linéaires, sauf si vous appliquez explicitement des transformations telles que sigmoïde ou noyau pour les rendre non linéaires (GLM et SVM).

Dans le cas des modèles d'apprentissage automatique, vous spécifiez rarement la structure de sortie et les algorithmes tels que les arbres de décision sont intrinsèquement non linéaires et fonctionnent efficacement.

Contrairement à ce que Ben a souligné, les modèles d'apprentissage automatique ne se limitent pas à la prédiction, ils font de la classification, de la régression, etc. qui peuvent être utilisés pour faire des prédictions qui sont également effectuées par divers modèles statistiques.


L'utilisation de ces réseaux neuronaux logiques sont des modèles statistiques puisque l'architecture est décidée à l'avance. Je ne pense pas que des tentatives pour définir une distinction claire entre les statistiques et l'apprentissage automatique ne soient ni possibles ni nécessaires.
Marc Claesen

C'est exactement la raison pour laquelle j'ai mentionné le mot «rarement» dans le paragraphe d'apprentissage automatique. Je n'ai pas dit que tu ne le fais absolument pas! Eh bien, pour les personnes qui commencent à explorer ces choses, il est bon de connaître les nuances entre l'apprentissage statistique et l'apprentissage automatique
binga

J'ai aimé cette explication. J'ai constaté que dans le monde des statistiques, l'accent est mis sur la normalisation des données, l'ingénierie des fonctionnalités et l'ajustement des modèles. Dans le monde du ML, bien que toujours important, il semble que les gens utilisent la régularisation et de plus grandes quantités de données pour «trouver le bon modèle», nécessitant moins d'hypothèses initiales. Remarque: C'est mon sentiment d'avoir fait un Master dans les deux, mais je souhaite la bienvenue aux autres qui me corrigent s'ils pensent que je me trompe.
user1761806

2

Le GLM est absolument un modèle statistique, alors que de plus en plus de méthodes statistiques ont été appliquées dans la production industrielle comme astuces d' apprentissage automatique . La méta-analyse que j'ai le plus lue ces jours-ci est un bon exemple dans le domaine statistique.

Une application industrielle parfaite avec GLM peut expliquer pourquoi votre ami vous a dit que GLM était considéré comme une technique d' apprentissage automatique . Vous pouvez consulter le document source http://www.kdd.org/kdd2016/papers/files/adf0562-zhangA.pdf à ce sujet.

J'en ai implémenté un simplifié qui a été traité comme le cadre principal de mon système de recommandation dans le scénario de production il y a quelques semaines. Très apprécié si vous me donnez quelques conseils, et vous pouvez vérifier le code source: https://github.com/PayneJoe/algo-sensetime/blob/master/src/main/scala/GLMM.scala

J'espère que cela vous aidera, bonne journée!

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.