L'apprentissage machine est-il moins utile pour comprendre la causalité, donc moins intéressant pour les sciences sociales?

42

Ma compréhension de la différence entre apprentissage automatique / autres techniques de prévision statistique et le type de statistiques utilisées par les spécialistes des sciences sociales (économistes, par exemple) est que les économistes semblent très intéressés par la compréhension de l'effet d'une ou de plusieurs variables - à la fois en termes de magnitude et détecter si la relation est causale. Pour cela, vous vous retrouvez avec des méthodes expérimentales et quasi expérimentales, etc.

L'apprentissage automatique ou la modélisation statistique prédictive néglige souvent entièrement cet aspect et, dans de nombreux cas, ne vous donne pas un degré spécifique d'influence d'une variable sur le résultat (logit et probit semblent faire les deux).

Une question connexe est de savoir dans quelle mesure les modèles économiques ou comportementaux inspirés théoriquement ont-ils un avantage sur les modèles athéoriques lors de la prédiction de nouveaux domaines? Qu'est-ce qu'un statisticien en apprentissage automatique ou orienté prédiction dirait à la critique selon laquelle, sans modèle économique, vous ne seriez pas en mesure de prédire correctement de nouveaux échantillons pour lesquels les covariables étaient très différentes.

Je serais vraiment heureux d'entendre les gens prendre cela à tous points de vue.

machine-learning econometrics

— d_a_c321
source

Question. Vouliez-vous écrire des «modèles athéoriques», et si oui, qu'entendiez-vous par là? OU voulez-vous simplement dire «théorique»?

— Faheem Mitha

2

Peut-être envisagez-vous des modèles génératifs ou discriminants? L'apprentissage automatique s'oriente vers des modèles et des techniques discriminants.

— Wayne

@FaheemMitha: 'athoretical': sans théorie.

— naught101

32

À mon humble avis, aucune différence formelle ne distingue l’apprentissage automatique et les statistiques au niveau fondamental de l’adaptation des modèles aux données. Il peut exister des différences culturelles dans le choix des modèles, les objectifs de l'ajustement des modèles aux données et, dans certains cas, les interprétations.

Dans les exemples typiques auxquels je peux penser, nous avons toujours

$M_i$ $i \in I$ $I$
$i$ $\theta_i$ $M_i$

$M_i$ $\theta_i$ $M_i$

$M_i$

Ce que l’on pourrait appeler la sélection de modèle statistique à l’ ancienne école repose sur des tests statistiques, éventuellement combinés à des stratégies de sélection par étapes, alors que la sélection de modèles d’apprentissage automatique se concentre généralement sur l’erreur de généralisation attendue, qui est souvent estimée par validation croisée. Les développements et les conceptions actuels en matière de sélection de modèle semblent toutefois converger vers un terrain plus commun, voir, par exemple, Sélection de modèle et Calcul de moyenne .

Inférer la causalité à partir de modèles

Le problème est de savoir comment interpréter un modèle. Si les données obtenues proviennent d'une expérience soigneusement conçue et que le modèle est adéquat, il est plausible de pouvoir interpréter l'effet d'un changement de variable dans le modèle comme un effet causal et, si nous répétons l'expérience et intervenons sur cette variable particulière on peut s'attendre à observer l'effet estimé. Si, toutefois, les données sont d'observation, nous ne pouvons pas nous attendre à ce que les effets estimés dans le modèle correspondent à des effets d'intervention observables. Cela nécessitera des hypothèses supplémentaires, que le modèle soit un "modèle d'apprentissage automatique" ou un "modèle statistique classique".

Il se peut que les personnes formées à l’utilisation de modèles statistiques classiques mettant l’accent sur des estimations paramétriques univariées et des interprétations de la taille des effets donnent l’impression qu’une interprétation causale est plus valable dans ce cadre que dans un cadre d’apprentissage automatique. Je dirais que non.

Le domaine de l'inférence causale dans les statistiques n'élimine pas vraiment le problème, mais il rend explicites les hypothèses sur lesquelles reposent les conclusions causales. Ils sont appelés des hypothèses non vérifiables . L'article Inférence causale en statistique: Un aperçu de Judea Pearl est un bon article à lire. Une contribution majeure de l'inférence causale est la collection de méthodes pour l'estimation des effets causaux sous des hypothèses où il existe en réalité des facteurs de confusion non observés, ce qui constitue par ailleurs une préoccupation majeure. Voir la section 3.3 dans le document Pearl ci-dessus. Un exemple plus avancé peut être trouvé dans l'article Modèles de structure marginale et inférence causale en épidémiologie .

La question de savoir si les hypothèses non vérifiables sont valables est une question de fond. Ils sont précisément non testables car nous ne pouvons pas les tester en utilisant les données. Pour justifier les hypothèses, d'autres arguments sont nécessaires.

Comme exemple de rencontre entre l’apprentissage automatique et l’inférence causale, les idées d’ estimation du maximum de vraisemblance ciblée, présentées dans Apprentissage ciblé du maximum de vraisemblance par Mark van der Laan et Daniel Rubin, exploitent généralement les techniques d’apprentissage automatique pour l’estimation non paramétrique suivies de la méthode de ciblage. "vers un paramètre d'intérêt. Ce dernier pourrait très bien être un paramètre avec une interprétation causale. L'idée dans Super apprenantest fortement tributaire des techniques d’apprentissage automatique pour l’estimation des paramètres d’intérêt. Mark van der Laan (communication personnelle) souligne que les modèles statistiques classiques, simples et "interprétables" sont souvent erronés, ce qui entraîne des estimateurs biaisés et une évaluation trop optimiste de l'incertitude des estimations.

— NRH
source

Merci pour cette réponse incroyable ... Il me tarde de suivre tous les liens que vous avez fournis. Une des questions que je me pose concerne les techniques. Existe-t-il un système d’apprentissage analogique analogue à celui de variables instrumentales pour les données d’observation? En outre, dans le cas de la randomisation d'une variable, quelle serait l'alternative d'apprentissage automatique par rapport à un simple test t des différences entre les traitements? Est-ce qu'une technique de réponse d'apprentissage automatique est nécessaire, quel avantage aurait-elle?

— d_a_c321

@dchandler, mon expérience avec les variables instrumentales est très limitée, mais encore une fois, je ne vois aucune raison formelle de faire la distinction entre l'apprentissage par machine et la méthodologie statistique pour l' ajustement des modèles . Vous pourriez donc très bien inclure des variables instrumentales si cela sert à quelque chose. Je trouve que la question la plus intéressante liée à la causalité est l'effet de l'intervention. Il s’agit essentiellement d’une question de prédiction mais peut-être pas sous la distribution des données d’observation.

— NRH

t

$t$

t

$t$

p

$p$

Après l'intervention, quels types de statistiques utiliseraient l'apprentissage automatique? Les statistiques de base du protocole expérimental sont généralement très intelligibles (comparaison des moyens via un test t). En économétrie, avec plus d'hypothèses, vous pouvez essayer de récupérer différents quantiles ou la distribution des effets du traitement. Que ferait une analyse d’apprentissage automatique au-delà de la comparaison de moyens?

— d_a_c321

Ce qui est facile à comprendre, c'est de calculer quelque chose, ce qui n'est pas si facile, c'est de justifier les hypothèses requises. L’approche TMLE de Mark repose sur l’estimation de la taille des effets (paramètres d’intérêt, en général, peut-être des effets d’intervention, peut-être des effets d’observation) et fournit des intervalles de confiance honnêtes avec des hypothèses de modèle moins restrictives. Un ajustement de modèle flexible avec une sélection de modèle basée sur la validation croisée est utilisé pour éviter un modèle paramétrique restrictif et erroné.

— NRH

10

Il existe un ensemble (assez limité) d'outils statistiques pour la soi-disant "inférence causale". Celles-ci sont conçues pour évaluer réellement les relations de causalité et il est prouvé qu'elles le font correctement. Excellent, mais pas pour les doux de cœur (ni pour le cerveau, d'ailleurs).

En dehors de cela, dans de nombreux cas, la possibilité d'impliquer une causalité est beaucoup plus une conséquence de votre conception que des techniques actuelles: si vous avez le contrôle sur «toutes» les variables de votre expérience et que vous voyez quelque chose se produire à chaque fois ( seulement) changez une variable, il est raisonnable d'appeler la chose qui se produit une «conséquence» de la chose que vous changez (malheureusement, dans la vraie recherche, ces cas extrêmes se produisent rarement). Un autre raisonnement intuitif mais valable est basé sur le temps: si vous modifiez une variable de façon aléatoire (mais de manière contrôlée) et une autre le lendemain, la causalité est également imminente.

Tout mon deuxième paragraphe fonctionne essentiellement quelles que soient les méthodes que vous utilisez pour trouver les variables qui ont changé dans quelles conditions, donc au moins en théorie, il n’ya aucune raison pour que le Machine Learning (ML) soit pire que les méthodes basées sur les statistiques.

Clause de non - responsabilité : paragraphe très subjectif

Cependant, selon mon expérience, trop souvent, les techniques ML sont simplement relâchées sur une masse de données sans tenir compte de l'origine des données ni de la manière dont elles ont été collectées (c.-à-d. Sans tenir compte de la conception). Dans ces cas-là, le résultat est souvent dérisoire, mais il sera extrêmement difficile de dire quelque chose d'utile à propos de la causalité. Ce seraêtre exactement la même chose quand une méthode statistiquement valable est exécutée sur les mêmes données. Cependant, les personnes ayant de solides connaissances en statistiques sont formées à la critique et, si tout va bien, éviteront ces écueils. C’est peut-être tout simplement l’esprit d’adhérence des premiers utilisateurs (mais négligés) des techniques de ML (généralement pas les développeurs de nouvelles techniques mais ceux qui sont désireux de «prouver» certains résultats avec eux dans leur domaine d’intérêt) qui a donné à ML sa mauvaise réputation à cet égard. Compte. (Notez que je ne dis pas que les statistiques valent mieux que ML, ou que toutes les personnes qui font du ML sont négligentes et que les statistiques ne le sont pas)

— Nick Sabbe
source

Merci beaucoup pour la réponse. J'aime beaucoup votre explication de la façon dont la causalité est davantage une conséquence du design que des techniques. Une question que j’ai cependant posée à propos des techniques est de savoir s’il existe ou non des variables instrumentales pour l’apprentissage par la machine. En outre, dans le cas de la randomisation d'une variable, quelle serait l'alternative d'apprentissage automatique par rapport à un simple test t des différences entre les traitements?

— d_a_c321

9

Mon point de vue est que les modèles utilisés en économie et dans les autres sciences sociales ne sont utiles que dans la mesure où ils ont un pouvoir prédictif dans le monde réel - un modèle qui ne prévoit pas le monde réel n’est qu’un calcul intelligent. Un de mes mots préférés à l’intention de mes collègues est que "les données sont le roi".

Il me semble que votre question soulève deux critiques d’une approche prédictive. Tout d’abord, vous indiquez que les modèles produits par les techniques d’apprentissage automatique peuvent ne pas être interprétables . Deuxièmement, vous suggérez que les méthodes utilisées par les spécialistes des sciences sociales sont plus utiles pour découvrir les relations de causalité que l’apprentissage par la machine.

Pour aborder le premier point, je proposerais le contre-argument suivant. La mode actuelle dans l'apprentissage automatique favorise les méthodes (comme les SVM et NN) qui sont difficiles à comprendre pour un profane. Cela ne signifie pas que toutes les techniques d'apprentissage automatique possèdent cette propriété. Par exemple, le vénérable arbre de décision C4.5 est toujours largement utilisé 20 ans après avoir atteint la phase finale de son développement et produit en sortie un certain nombre de règles de classification. Je dirais que de telles règles se prêtent mieux à l'interprétation que des concepts tels que le log odds ratio, mais c'est une affirmation subjective. Dans tous les cas, de tels modèles sont interprétables.

En abordant le deuxième point, je concède que si vous entraînez un modèle d’apprentissage automatique dans un environnement et que vous le testez dans un autre, il échouera probablement. Cependant, il n’ya aucune raison de supposer a priori que cela n’est pas aussi vrai dans le cas d’un modèle. Modèle plus conventionnel: si vous construisez votre modèle sous un ensemble d'hypothèses, puis évaluez-le sous un autre, vous obtiendrez de mauvais résultats. Pour reprendre une phrase de la programmation informatique: "garbage in, garbage out" s’applique aussi bien aux modèles d’apprentissage automatique qu’aux modèles conçus.

— John Doucette
source

9

Non. L'inférence causale est un domaine de recherche actif en apprentissage automatique. Voir, par exemple, les actes de cet atelier et de celui-ci . Je tiens cependant à souligner que même si votre intérêt principal est l’inférence causale ou l’interprétation du modèle, il est toujours judicieux d’essayer en parallèle une approche opaque purement prédictive, afin que vous sachiez si le fait d’insister sur une pénalité de performance est pénalisant. un modèle interprétable.

— Dikran Marsupial
source

1

interopretable? Peut-être que vous voulez dire interprétable?

— Faheem Mitha

4

Je ne reviendrai pas sur les très bons arguments déjà formulés dans d'autres réponses, mais je voudrais ajouter une perspective quelque peu différente. Ce que je dis ici est quelque peu philosophique, pas nécessairement tiré de l’expérience professionnelle, mais d’une expérience mixte des sciences physiques, de la théorie des systèmes complexes et de l’apprentissage automatique (et, je dois l’admettre, des statistiques essentiellement de premier cycle).

Une différence importante entre l'apprentissage automatique et les approches statistiques classiques (que je sache) réside dans l'ensemble des hypothèses qui ont été formulées. Dans les statistiques classiques, de nombreuses hypothèses sur les processus et les distributions sous-jacents sont fixes et tendent à être considérées comme allant de soi. En apprentissage machine, toutefois, ces hypothèses sont explicitement choisies pour chaque modèle, ce qui donne un ensemble de possibilités beaucoup plus large et peut-être une plus grande prise de conscience des hypothèses formulées.

Nous constatons de plus en plus que les systèmes du monde qui nous entoure se comportent de manière complexe et non linéaire, et que de nombreux processus n'obéissent pas aux hypothèses de normalité, etc. généralement présentes dans les statistiques classiques. Je dirais que, en raison de la flexibilité et de la diversité des hypothèses de modèle, les approches d’apprentissage automatique conduiront souvent à un modèle plus robuste dans de tels cas.

Il existe de fortes hypothèses de modèle intégrées dans des expressions telles que "ampleur de l'effet", "relation de cause à effet" et "degré auquel une variable affecte le résultat". Dans un système complexe (tel qu'une économie), ces hypothèses ne seront valables que dans une certaine fenêtre d'états possibles du système. Avec certains observables et processus, cette fenêtre peut être grande, conduisant à des modèles relativement robustes. Avec d'autres, il peut être petit ou même vide. Le plus grand danger est peut-être le juste milieu: un modèle peut sembler fonctionner, mais lorsque le système change, échouez de manière soudaine et surprenante.

L'apprentissage automatique n'est pas une panacée. Je vois plutôt cela comme une recherche de nouvelles manières de tirer un sens de nos observations, de rechercher de nouveaux paradigmes qui sont nécessaires si nous voulons traiter efficacement la complexité que nous commençons à percevoir dans le monde qui nous entoure.

— Drevicko
source