Les deux cultures: statistiques vs apprentissage automatique?


420

L'année dernière, j'ai lu un article de Brendan O'Connor sur le blog intitulé "Statistiques contre apprentissage automatique, combattez!" qui a discuté de certaines des différences entre les deux domaines. Andrew Gelman a répondu favorablement à ceci :

Simon Blomberg:

Du paquet de fortune de R: Pour paraphraser de manière provocante, «l'apprentissage automatique est une statistique, sans vérification des modèles et des hypothèses». - Brian D. Ripley (à propos de la différence entre l'apprentissage automatique et les statistiques) useR! 2004, Vienne (mai 2004) :-) Joyeuses fêtes!

Andrew Gelman:

Dans ce cas, nous devrions peut-être nous débarrasser de la vérification des modèles et des hypothèses plus souvent. Nous pourrions peut-être alors résoudre certains des problèmes que les personnes apprenantes en machine peuvent résoudre, mais nous ne le pouvons pas!

Il y avait aussi la « Modélisation statistique: Les deux cultures » papier par Leo Breiman en 2001 , qui ont fait valoir que les statisticiens se fient trop sur la modélisation des données, et que les techniques d'apprentissage machine progressent en appuyant plutôt sur la précision prédictive des modèles.

Le domaine des statistiques a-t-il changé au cours de la dernière décennie en réponse à ces critiques? Les deux cultures existent-elles encore ou les statistiques ont-elles évolué pour englober des techniques d'apprentissage automatique telles que les réseaux de neurones et les machines à vecteurs de support?


21
Merci @Robin; fait CW. Bien que je ne voie pas tout cela comme "argumentatif"; il y a deux domaines qui se sont informés (c'est un fait), et la question est de savoir combien ils ont évolué ensemble au cours de la dernière décennie.
Shane

16
Ajoutez une troisième culture: l'exploration de données . Les apprenants et les informaticiens parlent des langues très différentes. Généralement, les apprenants machine ne comprennent même pas ce qui est différent dans l'exploration de données. Pour eux, il ne s'agit que d'un apprentissage non supervisé. ils ignorent les aspects de la gestion des données et appliquent l' exploration de données à la mode , à l'apprentissage automatique, ce qui ajoute encore à la confusion.
Anony-Mousse

4
Il y a une question similaire sur l'exploration de données et les statistiques
naught101

2
Une discussion intéressante sur le blog de Wasserman .

2
Il me semble qu’en réalité le lien entre le BC et les statistiques n’est pas suffisamment souligné. De nombreux étudiants en CS ignorent tout ce qui concerne les statistiques au cours de leurs journées de formation, car ils ne comprennent pas l'importance cruciale d'une statistique solide fondée sur la réalisation de tâches de BC. Peut-être même que de nombreux départements CS du monde entier seraient lents à agir également. Ce serait une erreur très coûteuse et j’espère certainement que l’importance de la connaissance des statistiques en informatique sera mieux comprise. Fondamentalement ML = Statistiques dans beaucoup de sens.
xji

Réponses:


195

Je pense que la réponse à votre première question est simplement affirmative. Prenez n'importe quel numéro de Statistical Science, JASA, Annals of Statistics des 10 dernières années et vous trouverez des articles sur le renforcement, les SVM et les réseaux de neurones, bien que ce domaine soit moins actif à présent. Les statisticiens se sont appropriés les travaux de Valiant et de Vapnik, mais de l’autre côté, les informaticiens ont absorbé les travaux de Donoho et Talagrand. Je ne pense plus qu'il y ait beaucoup de différences dans la portée et les méthodes. Je n'ai jamais souscrit à l'argument de Breiman selon lequel les employés de CS ne souhaitaient que minimiser les pertes à l'aide de tout ce qui fonctionnait. Ce point de vue a été fortement influencé par sa participation à des conférences sur les réseaux de neurones et son travail de consultant. mais PAC, SVMs, Boosting ont tous des fondements solides. Et aujourd’hui, contrairement à 2001, Statistics s’intéresse davantage aux propriétés d’échantillon fini,

Mais je pense qu'il reste encore trois différences importantes qui ne vont pas disparaître rapidement.

  1. Les documents de statistiques méthodologiques sont encore pour la plupart formels et déductifs, alors que les chercheurs en Machine Learning sont plus tolérants à l'égard des nouvelles approches, même si elles ne sont pas accompagnées d'une preuve;
  2. La communauté ML partage principalement les nouveaux résultats et publications lors de conférences et de procédures connexes, tandis que les statisticiens utilisent des articles de journaux. Cela ralentit les progrès de la statistique et l'identification des chercheurs étoiles. John Langford a publié un bon post sur le sujet il y a quelque temps.
  3. Les statistiques couvrent encore des domaines qui (pour le moment) ne concernent que peu le BC, tels que la conception de l’enquête, l’échantillonnage, les statistiques industrielles, etc.

20
Très bonne publication! Notez que Vapnick avait un doctorat en statistiques. Je ne suis pas sûr qu'il y ait beaucoup d'informaticiens qui connaissent le nom Talagrand et je suis sûr que 0,01% d'entre eux peuvent affirmer de mémoire qu'un résultat de talagrand :) pouvez-vous? Je ne connais pas le travail de Valiant :)
robin girard le

Je vois les différentes réponses en matière de recherche universitaire et d’applications. Je pense que vous avez répondu dans le contexte de l'ancien. Dans les applications, je pense que la plus grande différence réside dans la manière dont les domaines se développent. ML via le canal de la science des données accepte tous ceux qui peuvent coder, littéralement. En statistiques, vous avez toujours besoin d'un diplôme officiel en statistiques ou dans des domaines proches pour pouvoir entrer sur le marché du travail.
Aksakal

1
L'échantillonnage d'enquête et les statistiques industrielles sont des domaines de plusieurs milliards de dollars (la section des méthodes de recherche par sondage de l'American Statistical Association est la troisième en importance après la biométrie et le conseil, et cette dernière inclut également un grand nombre de statisticiens industriels. , et il existe encore une méthode distincte Six-Sigma et d’autres méthodes de contrôle de la qualité, qui ne sont pas toutes entièrement dans les statistiques). Les deux font face à une grave pénurie de statisticiens, car la main-d'œuvre actuelle des baby-boomers qui sont venus travailler dans ces régions dans les années 1960 prend sa retraite.
StasK

4
Tandis que certaines personnes obtiennent leur emploi en posant sur le tapis rouge lors de conférences, d’autres trouvent le leur en appliquant les méthodes dans le monde réel. Ce dernier les gens n'ont que beaucoup d' intérêt pour identifier les étoiles de toute nature; ils préféreraient plutôt identifier les méthodes qui fonctionnent, même si, à maintes reprises, après quelques années dans un domaine donné, vous êtes amené aux mêmes noms encore et encore.
StasK

Pourquoi l'échantillonnage ne concerne-t-il pas ML? N'est-ce pas tout à fait similaire au problème d'avoir les bonnes données d'entraînement étiquetées dans ML?
Gerrit

169

La plus grande différence que je constate entre les communautés est que les statistiques mettent l’accent sur l’inférence, alors que l’apprentissage automatique met l’accent sur la prédiction. Lorsque vous faites des statistiques, vous voulez déduire le processus par lequel vos données ont été générées. Lorsque vous effectuez un apprentissage automatique, vous voulez savoir comment vous pouvez prédire quelles données futures ressembleront à une variable.

Bien sûr, les deux se chevauchent. Savoir comment les données ont été générées vous donnera des indications sur ce que serait un bon prédicteur, par exemple. Cependant, un exemple de la différence est que l’apprentissage automatique a traité le problème p >> n (plus de caractéristiques / variables que d’échantillons d’apprentissage) depuis le tout début, alors que les statistiques commencent tout juste à devenir sérieuses à propos de ce problème. Pourquoi? Parce que vous pouvez toujours faire de bonnes prédictions lorsque p >> n, mais vous ne pouvez pas faire de très bonnes inférences sur les variables qui sont réellement importantes et pourquoi.


13
Cela pourrait-il être (trop) simplifié en quelque chose comme la différence entre les modèles génératifs et discriminatifs?
Wayne

5
"Il faut résoudre le problème de [classification] directement et ne jamais résoudre un problème plus général en tant qu'étape intermédiaire ..." - Vapnik
Wayne

3
@mbq: Je ne voulais pas impliquer qu'aucune inférence ne peut être faite, mais simplement que ce n'est pas l'objectif principal et que, généralement, p >> n dans ML, le rendant beaucoup plus difficile.
Dsimcha

2
Je suis fortement en désaccord avec ce point de vue. Cela semble faux. Les réseaux de neurones récurrents, par exemple, tentent également de déduire des processus et même de générer de nouvelles séquences.
homme des cavernes

2
Alors qu'en est-il de la robotique? La robotique probabiliste est largement axée sur l'inférence et domine dans les applications. Mais toujours une "saveur" différente des statistiques (et plus d'ingénierie par rapport à la machine / apprentissage; c'est-à-dire l'analyse / contrôle en temps réel)
GeoMatt22

135

Bayésien: "Bonjour, Apprenant Machine!"

Frequentist: "Bonjour, Apprenant Machine!"

Apprentissage automatique: "Je vous entends dire que vous êtes doués pour les choses. Voici quelques données."

F: "Oui, écrivons un modèle et calculons ensuite le MLE."

n1n

F: "Ah oui, merci de me le rappeler. Je pense souvent que je suis censé utiliser le MLE pour tout, mais je m'intéresse aux estimateurs non biaisés , etc."

ML: "Euh, qu'est-ce que c'est que philosopher? Est-ce que ça m'aidera?"

÷(n1)

ML: "Alors, qu'est-ce qui t'importe?"

F: "Evaluation".

ML: "J'aime le son de ça."

θθθ

ML: "Ça a l'air génial! On dirait que les fréquentants sont des gens pragmatiques. Vous jugez chaque boîte noire à ses résultats. L'évaluation est la clé."

F: "En effet! Je comprends que vous adoptiez une approche similaire. Validation croisée, ou quelque chose du genre? Mais cela me semble compliqué."

ML: "Messy?"

F: "L'idée de tester votre estimateur sur des données réelles me semble dangereuse. Les données empiriques que vous utilisez pourraient avoir toutes sortes de problèmes, et pourraient ne pas se comporter conformément au modèle sur lequel nous nous sommes mis d'accord pour l'évaluation."

θ

F: "Oui. Bien que votre méthode ait pu fonctionner sur un jeu de données (le jeu de données avec train et données de test) que vous avez utilisé dans votre évaluation, je peux prouver que la mienne fonctionnera toujours."

ML: "Pour tous les jeux de données?"

F: "Non"

ML: "Donc ma méthode a été validée par recoupement sur un jeu de données. Vous n'avez pas testé la vôtre sur un jeu de données réel?"

F: "C'est vrai."

ML: "Cela me donne l'avantage! Ma méthode est meilleure que la vôtre. Elle prédit le cancer 90% du temps. Votre" preuve "n'est valide que si l'ensemble du jeu de données se comporte conformément au modèle que vous avez supposé."

F: "Euh, oui, je suppose."

θ

F: "C'est vrai. À moins que les données soient vraiment normales (ou autre), ma preuve est inutile."

ML: "Alors, mon évaluation est plus fiable et plus complète? Elle ne fonctionne que sur les jeux de données que j'ai essayés jusqu'à présent, mais au moins, ce sont de vrais jeux de données, des verrues, etc. 'et' approfondie 'et que vous étiez intéressé par la vérification des modèles et autres. "

B: (interjectant) "Hé les gars, désolé de vous interrompre. J'aimerais beaucoup faire le bilan, en montrant peut-être d'autres problèmes, mais j'aime vraiment regarder mon collègue fréquentiste se tortiller."

F: "Woah!"

ML: "OK, les enfants. Tout était une question d'évaluation. Un estimateur est une boîte noire. Des données sont introduites, des données sont générées. Nous approuvons ou désapprouvons un estimateur basé sur ses performances en cours d'évaluation. sur la «recette» ou «principes de conception» qui sont utilisés. "

F: "Oui. Mais nous avons des idées très différentes sur les évaluations qui sont importantes. ML formera et testera des données réelles. Tandis que je ferai une évaluation plus générale (car elle implique une preuve applicable à grande échelle) et également plus limité (parce que je ne sais pas si votre jeu de données est réellement tiré des hypothèses de modélisation que j'utilise lors de la conception de mon évaluation.) "

ML: "Quelle évaluation utilisez-vous, B?"

F: (intercepte) "Hé. Ne me fais pas rire. Il n'évalue rien. Il utilise simplement ses croyances subjectives et les utilise. Ou quelque chose."

B: "C'est l'interprétation courante. Mais il est également possible de définir le bayésianisme en fonction des évaluations préférées. Ensuite, nous pouvons utiliser l'idée qu'aucun d'entre nous ne se soucie de ce qu'il y a dans la boîte noire, nous nous soucions uniquement des différentes manières d'évaluer."

B poursuit: "Exemple classique: test médical. Le résultat du test sanguin est positif ou négatif. Un fréquentiste s'intéressera aux personnes en bonne santé, quelle proportion aura un résultat négatif. De même, quelle sera la proportion de malades obtenez un résultat positif. Le fréquentiste calculera ces résultats pour chaque méthode d'analyse de sang à l'étude, puis recommandera d'utiliser le test présentant la meilleure paire de scores. "

F: "Exactement. Que voulez-vous de plus?"

B: "Qu'en est-il des personnes qui ont obtenu un résultat de test positif? Elles voudront savoir 'de celles qui obtiennent un résultat positif, combien vont tomber malades?' et 'parmi ceux qui obtiennent un résultat négatif, combien sont en bonne santé?' "

ML: "Ah oui, cela semble être une meilleure paire de questions à poser."

F: "Hérésie!"

B: "Nous y revoilà. Il n'aime pas où cela va."

ML: "Il s'agit de 'priors', n'est-ce pas?"

F: "EVIL".

B: «En tout cas, oui, vous avez raison ML. Pour calculer la proportion de malades ayant un résultat positif, vous devez effectuer l'une des deux choses suivantes. Une option consiste à exécuter les tests sur un grand nombre de personnes et à simplement observer les paramètres suivants: Par exemple, combien de personnes meurent-elles de la maladie? "

ML: "Cela ressemble à ce que je fais. Utilise train-and-test."

B: "Mais vous pouvez calculer ces chiffres à l'avance, si vous êtes prêt à faire une hypothèse sur le taux de maladie dans la population. Le fréquentiste fait aussi ses calculs à l'avance, mais sans utiliser ce taux de maladie au niveau de la population."

F: "HYPOTHÈSES PLUS NON FONDÉES."

B: "Oh, tais-toi. Plus tôt, on t'a découvert. ML a découvert que tu aimais les hypothèses non fondées autant que quiconque. Tes probabilités de couverture« prouvées »ne se concrétiseront dans le monde réel que si toutes tes hypothèses sont respectées. Pourquoi mes hypothèses précédentes sont-elles si différentes? Vous me traitez de fou, mais vous prétendez que vos hypothèses sont le travail d’une analyse conservatrice, solide et sans hypothèse. "

B (continue): "Quoi qu'il en soit, ML, comme je le disais. Les Bayésiens aiment un type d'évaluation différent. Nous sommes plus intéressés par le conditionnement des données observées et le calcul de la précision de notre estimateur en conséquence. Nous ne pouvons pas effectuer cette évaluation sans utiliser Mais ce qui est intéressant, c’est que, une fois que nous avons choisi cette forme d’évaluation et une fois notre choix effectué, nous avons une "recette" automatique pour créer un estimateur approprié. Le fréquentiste ne dispose pas de cette recette. estimateur non biaisé pour un modèle complexe, il n’a aucun moyen automatisé de construire un estimateur approprié. "

ML: "Et vous faites? Vous pouvez automatiquement construire un estimateur?"

B: "Oui. Je n'ai pas de moyen automatique de créer un estimateur non biaisé, car je pense que le biais est un mauvais moyen d'évaluer un estimateur. Mais étant donné l'estimation basée sur les données conditionnelles que j'aime bien, et le peut connecter le prior et la probabilité de me donner l'estimateur ".

ML: "Alors bref, récapitulons. Nous avons tous différentes manières d'évaluer nos méthodes et nous ne serons probablement jamais d'accord sur les meilleures méthodes."

B: "Bien, ce n'est pas juste. Nous pourrions les mélanger et les assortir. Si l'un d'entre nous a de bonnes données d'entraînement étiquetées, nous devrions probablement tester ces données. Et en général, nous devrions tous tester autant d'hypothèses que possible. Et certains "les preuves peuvent aussi être amusantes, prédire les performances sous un modèle présumé de génération de données".

F: "Ouais les gars. Soyons pragmatiques à propos de l'évaluation. Et en fait, je cesserai de m'obséder à propos des propriétés des échantillons infinis. J'ai demandé aux scientifiques de me donner un échantillon infini, mais ils ne l'ont toujours pas fait. temps pour moi de me concentrer à nouveau sur des échantillons finis ".

ML: "Donc, nous n'avons qu'une dernière question. Nous avons beaucoup discuté de la façon d' évaluer nos méthodes, mais comment créons- nous nos méthodes."

B: "Ah. Comme je le savais plus tôt, nous Bayésiens avons la méthode générale la plus puissante. C'est peut-être compliqué, mais nous pouvons toujours écrire une sorte d'algorithme (peut-être une forme naïve de MCMC) qui sera échantillonné à partir de notre postérieur. "

F (intervient): "Mais ça pourrait avoir un parti pris."

B: "Alors, vos méthodes pourraient bien. Dois-je vous rappeler que le MLE est souvent biaisé? Parfois, vous avez de grandes difficultés à trouver des estimateurs non biaisés, et même lorsque vous avez un estimateur stupide (pour un modèle très complexe) qui dit: la variance est négative. Et vous appelez cela impartial. Sans parti pris, oui. Mais utile, non! "

ML: "OK les gars. Vous vous déchainez encore une fois. Laissez-moi vous poser une question, F. Avez-vous déjà comparé le biais de votre méthode avec celui de la méthode de B, alors que vous avez tous les deux travaillé sur le même problème?"

F: "Oui. En fait, je déteste l'admettre, mais l'approche de B a parfois un biais et un MSE plus bas que mon estimateur!"

ML: "La leçon à tirer est que, même si nous sommes un peu en désaccord sur l’évaluation, aucun d’entre nous n’a le monopole de la création d’estimateur ayant les propriétés que nous voulons."

B: "Oui, nous devrions lire un peu plus le travail de chacun. Nous pouvons nous inspirer les uns les autres pour les estimateurs. Nous pourrions constater que les estimateurs des autres fonctionnent très bien, immédiatement, sur nos propres problèmes."

F: "Et je devrais cesser d’être obsédé par les biais. Un estimateur non biaisé pourrait avoir une variance ridicule. Je suppose que nous devons tous" assumer la responsabilité "des choix que nous faisons dans notre évaluation et des propriétés que nous souhaitons voir dans nos estimateurs. Nous ne pouvons pas nous arrêter derrière une philosophie. Essayez toutes les évaluations possibles. Et je continuerai à jeter un coup d’œil à la littérature bayésienne pour trouver de nouvelles idées pour les estimateurs! "

B: "En fait, beaucoup de gens ne savent pas vraiment quelle est leur propre philosophie. Je ne suis même pas sûr de moi-même. Si j'utilise une recette bayésienne, puis que je prouve un bon résultat théorique, ne Un fréquentiste se soucie des preuves ci-dessus concernant la performance, il se fiche des recettes. Et si je fais des tests et des formations à la place (ou aussi), cela signifie-t-il que je suis un apprenant en machine? "

ML: "On dirait que nous sommes tous assez semblables alors."


8
Pour les lecteurs qui liront cette réponse jusqu’à la fin, je suggérerais d’ajouter un bref message à emporter (et de fournir la citation appropriée le cas échéant).
chl

Avec -2 voix jusqu'à présent, je pense qu'il n'y a pas grand chose à faire pour la sauver :) Je pense que la fin, où ils sont tous d'accord et admettent qu'ils peuvent utiliser les méthodes de l'autre sans se soucier de la philosophie de l'autre, est un 'message à emporter'.
Aaron McDaid

10
Aucune citation requise. Je viens de inventer moi-même. Ce n'est probablement pas très bien informé, c'est basé sur mes interprétations (erronées) d'arguments que j'ai eu avec un petit nombre de collègues au cours des années.
Aaron McDaid

3
J'ai déjà vu de tels dialogues (plus courts) dans le passé et je les trouve intéressants. J'étais également préoccupé par les votes négatifs, d'où ma suggestion de placer un bref résumé en haut de manière à motiver les lecteurs à lire le reste de votre message.
chl

3
13/10 dirais encore
410_Gone

67

Dans une telle discussion, je me souviens toujours de la célèbre citation de Ken Thompson

En cas de doute, utilisez la force brute.

Dans ce cas, l’apprentissage automatique est un salut lorsque les hypothèses sont difficiles à saisir; ou du moins c'est beaucoup mieux que de les deviner.


2
Avec les capacités de calcul accrues ces dernières années et les autoencodeurs et techniques associées, cela est plus vrai que jamais.
Firebug

Pour résoudre un problème, les ingénieurs utilisent des formules, des techniques et des procédures qu’ils utilisaient auparavant et qui sont sûrs de leur succès. les procédures sont utilisées étape par étape ... Les activités d'ingénierie sont des activités de groupe - Ingénieurs, techniciens et manœuvres travaillent ensemble. Lorsqu'une nouvelle procédure est introduite, il faut du temps pour former les techniciens et les ouvriers à cette procédure. La modernisation est donc introduite dans un processus évolutif.
mardi

64

Ce qui impose plus de séparation qu’il devrait être, c’est le lexique de chaque discipline.

Dans de nombreux cas, ML utilise un seul terme et Statistique utilise un terme différent - mais les deux font référence à la même chose - très bien, on pourrait s’y attendre, et cela ne crée pas de confusion permanente (par exemple, caractéristiques / attributs par rapport aux attentes variables, ou réseau neuronal / MLP versus projection-poursuite).

Ce qui est beaucoup plus gênant, c’est que les deux disciplines utilisent le même terme pour désigner des concepts complètement différents.

Quelques exemples:

Fonction du noyau

En ML, les fonctions du noyau sont utilisées dans les classificateurs (par exemple, SVM) et bien sûr dans les machines du noyau. Le terme fait référence à une fonction simple ( cosinus, sigmoïde, rbf, polynôme ) pour mapper une séparable non linéaire vers un nouvel espace d'entrée, de sorte que les données soient maintenant séparables linéairement dans ce nouvel espace d'entrée. (par opposition à un modèle non linéaire pour commencer).

En statistique, une fonction du noyau est une fonction de pondération utilisée dans l'estimation de la densité pour lisser la courbe de densité.

Régression

En ML, les algorithmes prédictifs ou les implémentations de ces algorithmes qui renvoient des étiquettes de classe "classificateurs" sont (parfois) dénommés machines - par exemple, machine à vecteurs support , machine à noyau . Les contreparties des machines sont des régresseurs , qui retournent un score (variable continue) - par exemple, une régression vectorielle .

Les algorithmes ont rarement des noms différents en fonction du mode - par exemple, un MLP est le terme utilisé, qu'il renvoie un libellé de classe ou une variable continue.

Dans Statistics, régression , si vous essayez de construire un modèle basé sur des données empiriques, pour prédire une variable de réponse basée sur une ou plusieurs variables explicatives ou plusieurs variables, vous effectuez une analyse de régression . Peu importe que la sortie soit une variable continue ou une étiquette de classe (par exemple, une régression logistique). Ainsi, par exemple, la régression des moindres carrés fait référence à un modèle qui renvoie une valeur continue; En revanche, la régression logistique renvoie une estimation de probabilité qui est ensuite discrétisée en étiquettes de classe.

Biais

En ML, le terme biais dans l'algorithme est conceptuellement identique au terme d' interception utilisé par les statisticiens dans la modélisation par régression.

Dans Statistics, le biais est une erreur non aléatoire. En d’autres termes, certains phénomènes ont influencé l’ensemble des données dans le même sens, ce qui signifie que ce type d’erreur ne peut être éliminé par un nouvel échantillonnage ou une augmentation de la taille de l’échantillon.


19
En statistique, le biais n’est pas la même chose que l’erreur. L'erreur est purement aléatoire, le biais n'est pas. Vous avez un biais lorsque vous savez que la valeur attendue de votre estimation n'est pas égale à la valeur réelle.
Joris Meys

2
(@Joris Ou même si vous ne le savez pas! Cela semble banal, mais juste de savoir s'il y a un biais peut être un problème pratique considérable. A partir des données seules, comment pouvez-vous être certain qu'un paramètre de régression estimé est exempt de variable omise un biais?) On croit souvent à tort que le biais est une caractéristique des données et non une propriété d'un estimateur; Je me demande si cela provient d'un usage non technique comme "cette enquête est biaisée!" Les statisticiens ne sont pas non plus toujours cohérents dans les termes tels que "erreur": l'erreur quadratique moyenne (d'un estimateur) inclut une composante de biais au carré, de sorte que "l'erreur" n'est pas "purement aléatoire".
Silverfish

2
Je pense que le terme "machine" en SVM doit être attribué au goût personnel de Vladimir Vapnic. De nos jours, je ne pense pas qu'il ne soit pas utilisé pour nommer un autre classificateur.
Iliasfl

3
E[X^X]

1
[0,1]1

26

Les différences les plus importantes que j'ai remarquées au cours de la dernière année sont les suivantes:

  • Les experts en apprentissage automatique ne consacrent pas assez de temps aux bases, et nombre d'entre eux ne comprennent pas la prise de décision optimale ni les règles de notation de l'exactitude correctes. Ils ne comprennent pas que les méthodes prédictives qui ne supposent aucune hypothèse nécessitent des échantillons de taille plus grande que ceux qui le font.
  • Nous, statisticiens, passons trop peu de temps à apprendre de bonnes pratiques de programmation et de nouveaux langages informatiques. Nous sommes trop lents à changer en ce qui concerne l’informatique et l’adoption de nouvelles méthodes tirées de la littérature statistique.

2
Une autre remarque est que nous, les statisticiens, avons tendance à nous limiter aux méthodes que nous pouvons prouver avec des calculs qui fonctionneront bien (avec un ensemble d’hypothèses peut-être ridicules), en particulier en ce qui concerne les publications. Les personnes apprenantes en machine sont très heureuses d'utiliser des méthodes empiriques qui fonctionnent bien sur quelques jeux de données. En conséquence, je pense que la littérature ML évolue beaucoup plus rapidement mais nécessite également de passer au crible la bêtise.
Cliff AB

25

L'apprentissage automatique semble avoir sa base dans le pragmatique - une observation pratique ou une simulation de la réalité. Même dans le cadre de statistiques, une "vérification sans scrupule de modèles et d’hypothèses" peut conduire à éliminer des méthodes utiles.

Par exemple, il y a des années, le tout premier modèle de faillite disponible dans le commerce (et fonctionnel) mis en œuvre par les agences d'évaluation du crédit a été créé par le biais d'un ancien modèle de régression linéaire visant un résultat de 0-1. Techniquement, c'est une mauvaise approche, mais dans la pratique, cela a fonctionné.


4
c'est similaire à l'utilisation de modèles gravitationnels de la planète au trafic urbain. Je trouve cela absurde, mais ça marche
assez calmement en

5
Je suis intéressé par la dernière déclaration: "le tout premier modèle de faillite disponible sur le marché (et fonctionnel) mis en œuvre par les agences d'évaluation du crédit a été créé par le biais d'un ancien modèle de régression linéaire simple visant un résultat de 0-1". De quel modèle s'agissait-il? Je crois que le premier modèle était RiskCalc de Moody's et que même la première version était un modèle de régression logistique. Les concepteurs de ce modèle n'étaient pas des spécialistes du CS ayant une formation en ML, mais plutôt en économétrie.
Gappy

2
Je parie qu'ils ont utilisé une analyse discriminante avant la régression logistique, car DA a été inventé bien avant LR
Neil McGuigan le

1
@gappy Je pense au modèle MDS Consumer Bankruptcy pour les dossiers individuels des bureaux de crédit. RiskCalc était une évaluation du risque de crédit pour les entreprises. Le modèle de faillite de MDS différait des modèles de risque de FICO du moment en ce sens que la cible était la faillite et PAS le crédit en retard (comme les scores initiaux de FICO). Mon commentaire concernait moins les spécificités de ML dans ce contexte (car il était à peine utilisé - si du tout à l'époque - au moment de la construction du modèle BK), mais tenait au fait que l'efficacité pratique n'est pas nécessairement liée à restrictions théoriques ou violations d'hypothèses.
Jay Stevens

Juste curieux de savoir pourquoi était-ce techniquement une mauvaise approche? Parce qu'il a fait trop d'hypothèses simplificatrices qui différeraient grandement de la réalité?
xji

25

Je ne suis pas d'accord avec cette question car elle suggère que l'apprentissage automatique et les statistiques sont des sciences différentes ou contradictoires ... alors que l'inverse est vrai!

L’apprentissage automatique utilise beaucoup de statistiques… un survol rapide de tout progiciel d’apprentissage automatique ou d’exploration de données révélera des techniques de regroupement telles que k-means, également utilisées dans les statistiques…. aussi une technique statistique ... même la régression logistique encore une autre.

À mon avis, la principale différence est que traditionnellement les statistiques étaient utilisées pour démontrer une théorie préconçue et que l'analyse était généralement conçue autour de cette théorie principale. Là où, avec l'exploration de données ou l'apprentissage automatique, l'approche opposée est généralement la norme, nous voulons simplement trouver le moyen de le prédire plutôt que de poser la question ou de formuler la théorie. Est-ce le résultat!


21

J'ai parlé à ce sujet lors d'un forum différent du groupe électronique ASA Statistical Consulting. Ma réponse concernait plus particulièrement l'exploration de données, mais les deux vont de pair. Nous, les statisticiens, nous nous sommes moqués des fouilleurs de données, des informaticiens et des ingénieurs. Il est faux. Je pense que cela s’explique en partie par le fait que certaines personnes dans ces domaines ignorent la nature stochastique de leur problème. Certains statisticiens ont recours à l'exploration de données ou à la pêche aux données. Certaines personnes maltraitent et abusent des méthodes, mais les statisticiens ont pris du retard dans l’exploration de données et l’apprentissage automatique parce que nous les peignons avec un pinceau large. Certains des grands résultats statistiques proviennent de l'extérieur du domaine des statistiques. Le boosting est un exemple important. Mais des statisticiens comme Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman et d'autres l'ont compris et leur leadership a amené les statisticiens à analyser des puces à ADN et d'autres problèmes d'inférence à grande échelle. Ainsi, bien que les cultures puissent ne jamais s'emboîter, la coopération et la collaboration entre informaticiens, ingénieurs et statisticiens sont désormais plus nombreuses.


19

Le vrai problème est que cette question est erronée. Ce n’est pas un apprentissage automatique par rapport à des statistiques, c’est un apprentissage automatique contre de véritables progrès scientifiques. Si un dispositif d'apprentissage automatique donne les bonnes prédictions 90% du temps mais que je ne comprends pas "pourquoi", quelle est la contribution de l'apprentissage automatique à la science au sens large? Imaginez si les techniques d'apprentissage automatique étaient utilisées pour prédire la position des planètes: il y aurait beaucoup de gens pensant pouvoir prédire avec précision un certain nombre de choses avec leurs SVM, mais que sauraient-ils réellement du problème qu'ils ont entre les mains ? De toute évidence, la science n’avance pas vraiment par prédiction numérique, elle avance à l’aide de modèles (mental, mathématique) qui permettent de voir plus loin que les chiffres.


1
+1 Cela me rappelle l'utilisation de modèles en économie. Les modèles économétriques sont construits à plusieurs fins; à savoir l'analyse et la prévision des politiques. En général, personne ne se soucie vraiment de la prévision - ce sont les simulations de politique qui importent le plus. Comme David Hendry l'a dit, le meilleur modèle de prévision n'est pas nécessairement le meilleur modèle pour l'analyse des politiques - et vice versa. Besoin de prendre du recul et de réfléchir ... Quel est le but du modèle? Quelles questions essayons-nous de répondre? Et comment cela s’ajoute aux découvertes empiriques .
Graeme Walsh

18

L'apprentissage statistique (AKA Machine Learning) tire ses origines de la quête de logiciels en "apprenant à partir d'exemples". Nous aimerions que les ordinateurs effectuent de nombreuses tâches (par exemple, vision par ordinateur, reconnaissance de la parole, contrôle de robot) difficiles à programmer, mais pour lesquelles il est facile de fournir des exemples de formation. La communauté de recherche en apprentissage automatique / statistique a développé des algorithmes pour apprendre les fonctions de ces exemples. La fonction de perte était généralement liée à la tâche de performance (vision, reconnaissance de la parole). Et bien sûr, nous n'avions aucune raison de croire qu'il y avait un "modèle" simple sous-jacent à ces tâches (car sinon, nous aurions codé ce programme simple nous-mêmes). Par conséquent, l'idée de faire une inférence statistique n'avait aucun sens. L'objectif est l'exactitude prédictive et rien d'autre.

Au fil du temps, diverses forces ont commencé à conduire des machines à apprendre à apprendre aux statistiques. L'un d'entre eux était la nécessité d'intégrer les connaissances de base et d'autres contraintes au processus d'apprentissage. Cela a amené les gens à envisager des modèles probabilistes génératifs, car ceux-ci facilitent l'intégration de connaissances antérieures par le biais de la structure du modèle, ainsi que des précédents sur les paramètres et la structure du modèle. Cela a conduit le domaine à découvrir la riche littérature statistique dans ce domaine. Une autre force a été la découverte du phénomène de l'overfitting. Cela a amené la communauté ML à se renseigner sur la validation croisée et la régularisation et nous avons à nouveau découvert la riche littérature statistique sur le sujet.

Néanmoins, la plupart des travaux d’apprentissage automatique ont pour objectif de créer un système présentant certaines performances plutôt que de faire des déductions sur un processus inconnu. C'est la différence fondamentale entre ML et les statistiques.


15

Idéalement, il faut avoir une connaissance approfondie des statistiques et de l'apprentissage automatique avant de tenter de répondre à sa question. Je suis vraiment un néophyte pour ML, alors pardonnez-moi si je le dis naïf.

J'ai une expérience limitée des SVM et des arbres de régression. Ce qui me semble manquer du point de vue des statistiques dans ML, c’est un concept bien établi d’inférence.

L'inférence en ML semble se résumer presque exclusivement à l'exactitude des prévisions, telle que mesurée par (par exemple) l'erreur de classification moyenne (MCE), ou le taux d'erreur équilibré (BER) ou similaire. ML a la très bonne habitude de diviser des données au hasard (généralement 2: 1) en un ensemble d’entraînement et un ensemble d’essais. Les modèles sont ajustés à l'aide de l'ensemble d'apprentissage et les performances (MCE, BER, etc.) sont évaluées à l'aide de l'ensemble d'essai. C’est une excellente pratique qui ne fait que lentement son chemin dans les statistiques classiques.

ML utilise également beaucoup les méthodes de rééchantillonnage (notamment la validation croisée), dont l'origine semble être la statistique.

Cependant, ML semble manquer d'un concept d'inférence entièrement développé - au-delà de la précision prédictive. Cela a deux résultats.

1) Il ne semble pas y avoir de doute sur le fait qu'une prévision (estimation de paramètre, etc.) est sujette à une erreur aléatoire et peut-être à une erreur systémique (biais). Les statisticiens admettront qu'il s'agit d'un élément inévitable de la prévision et tenteront d'estimer l'erreur. Les techniques statistiques tenteront de trouver une estimation comportant un biais minimum et une erreur aléatoire. Leurs techniques reposent généralement sur un modèle du processus de traitement des données, mais pas toujours (par exemple, Bootstrap).

2) Il ne semble pas y avoir de compréhension profonde dans ML des limites de l’application d’un modèle à de nouvelles données pour un nouvel échantillon de la même population (malgré ce que j’ai dit plus tôt à propos de l’approche des ensembles de données de test de formation). Diverses techniques statistiques, parmi lesquelles la validation croisée et les conditions de sanction appliquées aux méthodes fondées sur la vraisemblance, guident les statisticiens dans l’arbitrage entre parcimonie et complexité des modèles. Ces directives en matière de BC semblent beaucoup plus ponctuelles.

J'ai lu plusieurs articles dans ML où la validation croisée est utilisée pour optimiser l'ajustement de nombreux modèles sur un jeu de données d'apprentissage - produisant de meilleurs ajustements à mesure que la complexité du modèle augmente. Il semble peu probable que les gains minimes en précision ne valent pas la complexité supplémentaire, ce qui conduit naturellement à un sur-ajustement. Tous ces modèles optimisés sont ensuite appliqués à l'ensemble de tests afin de vérifier les performances prédictives et d'éviter les surajustements. Deux choses ont été oubliées (ci-dessus). La performance prédictive aura une composante stochastique. Deuxièmement, plusieurs tests sur un ensemble de tests entraîneront à nouveau un sur-ajustement. Le "meilleur" modèle sera choisi par le praticien du ML sans une appréciation complète du fait qu'il / elle a choisi une des nombreuses réalisations possibles de cette expérience.

Toute mes 2 cents vaut. Nous avons beaucoup à apprendre les uns des autres.


2
votre commentaire sur le "meilleur" modèle sera choisi par le praticien du ML ... s’applique aussi bien aux statistiques classiques. Pour la plupart des procédures de sélection de modèle, on conditionne simplement le modèle final comme si aucune recherche de l'espace modèle n'avait été effectuée (étant donné que la moyenne du modèle est relativement nouvelle). Donc, je ne pense pas que vous puissiez utiliser cela comme un "club" avec lequel battre le pratiquant de ML, pour ainsi dire.
Probistislogic

En tant que pratiquant de ML, je ne reconnais pas la photo que vous peignez. La littérature du ML concerne presque toutes les variations de régularisation, de LDM, de Bayes, de MRS et d’autres approches permettant de contrôler la complexité du modèle. De mon point de vue, il semble que les méthodes de contrôle de la complexité de stat soient moins structurées, mais c'est un parti pris pour vous.
Muhammad Alkarouri

13

Cette question peut également être étendue à la prétendue super culture de la science des données en 2015. David Donoho présente 50 ans de science des données , où il confronte différents points de vue de la statistique et de l'informatique (y compris l'apprentissage automatique), par exemple des points de vue directs. (de différentes personnes) tels que:

  • Pourquoi avons-nous besoin de la science des données alors que nous avons des statistiques sur des siècles?
  • La science des données est une statistique.
  • La science des données sans statistiques est possible, voire souhaitable.
  • La statistique est la partie la moins importante de la science des données.

et assorti de considérations historiques et philosophiques, par exemple:

Il est frappant de constater que, lorsque j’examine une présentation sur la science des données d’aujourd’hui, dans laquelle les statistiques ne sont généralement pas bien analysées, je ne peux m'empêcher de remarquer que les outils, exemples et idées sous-jacents enseignés en tant que science des données étaient tous littéralement inventé par une personne formée au doctorat statistiques, et dans de nombreux cas, le logiciel utilisé a été développé par une personne ayant une maîtrise ou un doctorat. en statistiques. Les efforts accumulés par les statisticiens au fil des siècles sont tout simplement trop lourds pour être complètement dissimulés et ne peuvent être cachés dans l'enseignement, la recherche et l'exercice de la science des données.

Cet essai a généré de nombreuses réponses et contributions au débat.


3
Cela ressemble à un article qui mériterait d'être mentionné dans ce récent fil de discussion populaire , stats.stackexchange.com/questions/195034 , je pense que personne n'en a parlé.
amibe

1
Je pense que si vous publiez une nouvelle réponse résumant ce document, ce sera formidable.
amibe

Je vais et j'ai besoin de résumer d'abord toutes les réponses données
Laurent Duval

12

Je ne sais pas vraiment quelle est la différence conceptuelle / historique entre l'apprentissage automatique et la statistique, mais je suis sûr que ce n'est pas si évident ... 10 ans après le papier de Breiman, beaucoup de gens sont à la fois ...

Quoi qu'il en soit, j'ai trouvé intéressante la question de la précision prédictive des modèles . Nous devons nous rappeler qu'il n'est pas toujours possible de mesurer la précision d'un modèle et, plus précisément, nous faisons le plus souvent implicitement des modélisations lors de la mesure des erreurs.

Par exemple, l'erreur absolue moyenne dans la prévision de la série chronologique est une moyenne dans le temps et mesure la performance d'une procédure de prévision de la médiane en supposant que la performance est, dans un certain sens, stationnaire et présente une propriété ergodique . Si (pour une raison quelconque) vous devez prévoir la température moyenne de la Terre pour les 50 prochaines années et si votre modélisation fonctionne bien au cours des 50 dernières années ... cela ne signifie pas que ...

Plus généralement, (si je me souviens bien, cela s'appelle pas de repas gratuit), vous ne pouvez rien faire sans modélisation ... De plus, je pense que la statistique essaie de trouver une réponse à la question: "est quelque chose d'important ou non" C'est une question très importante en science et on ne peut y répondre par un processus d'apprentissage. Pour déclarer John Tukey (était-il un statisticien?):

La combinaison de certaines données et d’un désir ardent de réponse ne garantit pas qu’une réponse raisonnable puisse être extraite d’un ensemble de données donné.

J'espère que cela t'aides !


12

Il est clair que les deux domaines sont clairement confrontés à des problèmes similaires mais différents, de manière similaire mais non identique à des concepts analogues mais non identiques, et travaillent dans des départements, des journaux et des conférences différents.

Lorsque j'ai lu la statistique de la divergence des pouvoirs de Cressie et Read, tout s'est mis en place pour moi. Leur formule généralise les statistiques de test couramment utilisées dans une statistique qui varie d’un exposant, lambda. Il existe deux cas spéciaux, lambda = 0 et lambda = 1.

L'informatique et les statistiques s'inscrivent dans un continuum (qui pourrait inclure d'autres points). Avec une valeur de lambda, vous obtenez des statistiques communément citées dans les cercles de statistiques, et de l’autre, vous obtenez des statistiques communément citées dans des cercles de Comp Sci.

Statistiques

  • Lambda = 1
  • Les sommes des carrés apparaissent beaucoup
  • La variance comme mesure de la variabilité
  • La covariance comme mesure d'association
  • La statistique du chi carré comme mesure de l'ajustement du modèle

L'informatique:

  • Lambda = 0
  • Les sommes de journaux apparaissent beaucoup
  • L'entropie comme mesure de la variabilité
  • Information mutuelle comme mesure d'association
  • Statistique G-carré comme mesure de l'ajustement du modèle

9

Vous utilisez une fois un algorithme sophistiqué - et vous obtenez un document de présentation / statistiques de conférence CS (wow, quelle convergence rapide!). Vous le commercialisez et le lancez 1 million de fois - et vous échouez (ouch, pourquoi ai-je toujours des résultats inutiles et non reproductibles ???) à moins que vous ne sachiez utiliser la probabilité et les statistiques pour généraliser les propriétés de l'algorithme.


3
J'ai voté contre cette réponse. Bien que, avec une question comme celle-ci, certaines opinions personnelles seront inévitablement impliquées, nous devrions nous efforcer de formuler des critiques plus approfondies. Cela vient juste comme une diatribe.
Andy W

@ AndyW, c'est bien sûr une exagération de ce que je vois autour de moi. Il est également vrai que le monde universitaire n’est pas anticipé statistiquement: la reproductibilité des résultats publiés en psychologie ou en sciences médicales est au maximum de 25% (voir, par exemple, simplystatistics.tumblr.com/post/21326470429/… ) plutôt que la valeur nominale. 95%. Le PO souhaitait que les statistiques englobent l'informatique; peut-être que l'informatique devrait inclure certaines statistiques, et j'ai expliqué pourquoi.
StasK

5
@StasK Je pense que vous soulignez des points importants. Pourquoi ne pas essayer de les rendre un peu moins agressifs?
Gala

2
J'ai apprécié cette réponse pithy.
Ian Warburton

6

Il existe un domaine d'application des statistiques où se focaliser sur le modèle de génération de données a beaucoup de sens. Dans des expériences conçues, par exemple des études sur des animaux, des essais cliniques, des EOD industriels, les statisticiens peuvent avoir leur mot à dire sur le modèle de génération de données. ML a tendance à ne pas consacrer beaucoup de temps à ce problème très important, car il se concentre généralement sur un autre problème très important de prévision basé sur de «grandes» données d'observation. Cela ne veut pas dire que le niveau maximal ne peut pas être appliqué à de "grandes" expériences conçues, mais il est important de reconnaître que les statistiques possèdent une expertise particulière sur les "petits" problèmes de données découlant d'expériences à ressources limitées.

À la fin de la journée, je pense que nous pouvons tous convenir d’utiliser ce qui fonctionne le mieux pour résoudre le problème. Par exemple, nous pouvons avoir une expérience conçue qui produit des données très larges dans un but de prédiction. Les principes de conception statistique sont très utiles ici et les méthodes ML pourraient être utiles pour construire le prédicteur.


4

Je pense que l'apprentissage machine doit être une sous-branche dans les statistiques, tout comme, à mon avis, la chimie doit être une sous-branche dans la physique.

Je pense que la chimie inspirée par la physique est assez solide (je suppose). Je ne pense pas qu'il y ait une réaction chimique dont l'équivalent n'est pas connu physiquement. Je pense que la physique a fait un travail remarquable en expliquant tout ce que nous pouvons voir au niveau de la chimie. Maintenant, le défi des physiciens semble expliquer les mystères minuscules au niveau quantique, dans des conditions extrêmes qui ne sont pas observables.

Revenons maintenant à l'apprentissage automatique. Je pense que cela aussi devrait être une sous-branche dans la statistique (à quel point la chimie est une sous-branche de la physique).

Mais il me semble que, d'une manière ou d'une autre, ni l'état actuel de l'apprentissage automatique, ni les statistiques, ne sont pas assez matures pour le réaliser parfaitement. Mais à long terme, je pense que l’un doit devenir une sous-branche de l’autre. Je pense que c'est ML qui sera sous statistiques.

Personnellement, je pense que "apprendre" et "analyser des échantillons" pour estimer / déduire des fonctions ou des prédictions sont essentiellement une question de statistiques.


3
La biologie, la psychologie et la sociologie doivent-elles aussi être des "sous-branches" de la physique?
amibe

Bien .. La psychologie est juste une entrée / sortie impliquant des machines biologiques très compliquées. Un jour, nous devrons peut-être envoyer nos voitures à un psychologue pour diagnostiquer ses erreurs (le psychologue lui-même pourrait être un ordinateur).
homme des cavernes

1
Il me semble que les mathématiques sont le père de tous. De là, nous avons appliqué les mathématiques, d'où proviennent la physique et d'autres choses. La statistique en fait partie. Je pense que ML ne doit pas nécessairement être une branche à part entière, mais plutôt être incorporé dans les statistiques. Mais si ML devient une branche à part entière, je préfère que ce soit une branche / sous-branche de la statistique.
homme des cavernes

4

Du cours Coursera "Data Science dans la vie réelle" de Brian Caffo

Apprentissage machine

  • Insister sur les prévisions
  • Évalue les résultats via les performances de prédiction
  • Préoccupation de sur-adapter mais pas de complexité de modèle en soi
  • Accent mis sur la performance
  • La généralisabilité est obtenue par la performance sur de nouveaux jeux de données
  • Habituellement, aucun modèle de superpopulation spécifié
  • Préoccupation quant à la performance et à la robustesse

Analyse statistique traditionnelle

  • Souligne l'inférence de superpopulation
  • Se concentre sur des hypothèses a priori
  • Modèles plus simples préférés aux modèles complexes (parcimonie), même si les modèles plus complexes fonctionnent légèrement mieux
  • Accent mis sur l'interprétabilité des paramètres
  • La modélisation statistique ou les hypothèses d'échantillonnage relient les données à une population d'intérêt
  • Préoccupation concernant les hypothèses et la robustesse

-5

En tant qu'informaticien, je suis toujours intrigué par les approches statistiques. Il me semble souvent que les modèles statistiques utilisés dans l'analyse statistique sont beaucoup trop complexes pour les données dans de nombreuses situations!

Par exemple, il existe un lien étroit entre la compression des données et les statistiques. Fondamentalement, il faut un bon modèle statistique capable de bien prédire les données, ce qui entraîne une très bonne compression des données. En informatique, lors de la compression des données, la complexité du modèle statistique et la précision de la prédiction sont toujours très importantes. Personne ne veut obtenir JAMAIS un fichier de données (contenant des données audio, des données image ou des données vidéo) s’agrandissant après la compression!

Je trouve qu'il y a des choses plus dynamiques en informatique concernant les statistiques, comme par exemple Longueur minimale de description et Vraisemblance maximum normalisé .

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.