À mon humble avis, aucune différence formelle ne distingue l’apprentissage automatique et les statistiques au niveau fondamental de l’adaptation des modèles aux données. Il peut exister des différences culturelles dans le choix des modèles, les objectifs de l'ajustement des modèles aux données et, dans certains cas, les interprétations.
Dans les exemples typiques auxquels je peux penser, nous avons toujours
MiθiMi
Mi
Ce que l’on pourrait appeler la sélection de modèle statistique à l’ ancienne école repose sur des tests statistiques, éventuellement combinés à des stratégies de sélection par étapes, alors que la sélection de modèles d’apprentissage automatique se concentre généralement sur l’erreur de généralisation attendue, qui est souvent estimée par validation croisée. Les développements et les conceptions actuels en matière de sélection de modèle semblent toutefois converger vers un terrain plus commun, voir, par exemple, Sélection de modèle et Calcul de moyenne .
Inférer la causalité à partir de modèles
Le problème est de savoir comment interpréter un modèle. Si les données obtenues proviennent d'une expérience soigneusement conçue et que le modèle est adéquat, il est plausible de pouvoir interpréter l'effet d'un changement de variable dans le modèle comme un effet causal et, si nous répétons l'expérience et intervenons sur cette variable particulière on peut s'attendre à observer l'effet estimé. Si, toutefois, les données sont d'observation, nous ne pouvons pas nous attendre à ce que les effets estimés dans le modèle correspondent à des effets d'intervention observables. Cela nécessitera des hypothèses supplémentaires, que le modèle soit un "modèle d'apprentissage automatique" ou un "modèle statistique classique".
Il se peut que les personnes formées à l’utilisation de modèles statistiques classiques mettant l’accent sur des estimations paramétriques univariées et des interprétations de la taille des effets donnent l’impression qu’une interprétation causale est plus valable dans ce cadre que dans un cadre d’apprentissage automatique. Je dirais que non.
Le domaine de l'inférence causale dans les statistiques n'élimine pas vraiment le problème, mais il rend explicites les hypothèses sur lesquelles reposent les conclusions causales. Ils sont appelés des hypothèses non vérifiables . L'article Inférence causale en statistique: Un aperçu de Judea Pearl est un bon article à lire. Une contribution majeure de l'inférence causale est la collection de méthodes pour l'estimation des effets causaux sous des hypothèses où il existe en réalité des facteurs de confusion non observés, ce qui constitue par ailleurs une préoccupation majeure. Voir la section 3.3 dans le document Pearl ci-dessus. Un exemple plus avancé peut être trouvé dans l'article Modèles de structure marginale et inférence causale en épidémiologie .
La question de savoir si les hypothèses non vérifiables sont valables est une question de fond. Ils sont précisément non testables car nous ne pouvons pas les tester en utilisant les données. Pour justifier les hypothèses, d'autres arguments sont nécessaires.
Comme exemple de rencontre entre l’apprentissage automatique et l’inférence causale, les idées d’ estimation du maximum de vraisemblance ciblée, présentées dans Apprentissage ciblé du maximum de vraisemblance par Mark van der Laan et Daniel Rubin, exploitent généralement les techniques d’apprentissage automatique pour l’estimation non paramétrique suivies de la méthode de ciblage. "vers un paramètre d'intérêt. Ce dernier pourrait très bien être un paramètre avec une interprétation causale. L'idée dans Super apprenantest fortement tributaire des techniques d’apprentissage automatique pour l’estimation des paramètres d’intérêt. Mark van der Laan (communication personnelle) souligne que les modèles statistiques classiques, simples et "interprétables" sont souvent erronés, ce qui entraîne des estimateurs biaisés et une évaluation trop optimiste de l'incertitude des estimations.