J'essaie de comprendre certains articles de Mark van der Laan. Il est un statisticien théorique à Berkeley travaillant sur des problèmes qui se chevauchent de manière significative avec l'apprentissage automatique. Un problème pour moi (en plus des mathématiques approfondies) est qu'il finit souvent par décrire des approches d'apprentissage machine familières en utilisant une terminologie complètement différente. Un de ses principaux concepts est "Attente maximale de vraisemblance ciblée".
TMLE est utilisé pour analyser les données d'observation censurées d'une expérience non contrôlée d'une manière qui permet une estimation de l'effet même en présence de facteurs de confusion. Je soupçonne fortement que plusieurs des mêmes concepts existent sous d'autres noms dans d'autres domaines, mais je ne le comprends pas encore assez bien pour le faire correspondre directement à quoi que ce soit.
Une tentative de combler le fossé avec «l'analyse des données informatiques» est ici:
Et une introduction pour les statisticiens est ici:
Inférence causale basée sur le maximum de vraisemblance ciblé: Partie I
A partir du second:
Dans cet article, nous développons un estimateur du maximum de vraisemblance ciblé particulier des effets causals de plusieurs interventions ponctuelles. Cela implique l'utilisation d'un superapprentissage basé sur les pertes pour obtenir une estimation initiale des facteurs inconnus de la formule de calcul G, puis l'application d'une fonction de fluctuation optimale spécifique au paramètre cible (sous-modèle paramétrique le moins favorable) à chaque facteur estimé, estimer le ou les paramètres de fluctuation avec une estimation du maximum de vraisemblance et itérer cette étape de mise à jour du facteur initial jusqu'à la convergence. Cette étape de mise à jour du maximum de vraisemblance ciblée itérative rend l’estimateur résultant de l’effet causal doublement robuste en ce sens qu’il est cohérent si l’estimateur initial est cohérent, ou l'estimateur de la fonction de fluctuation optimale est cohérent. La fonction de fluctuation optimale est correctement spécifiée si les distributions conditionnelles des nœuds dans le graphe causal sur lequel on intervient sont correctement spécifiées.
Dans sa terminologie, le «super apprentissage» est un apprentissage d'ensemble avec un schéma de pondération non négatif théoriquement solide. Mais que veut-il dire par "appliquer une fonction de fluctuation optimale spécifique au paramètre cible (sous-modèle paramétrique le moins favorable) à chaque facteur estimé".
Ou en le divisant en trois questions distinctes, TMLE a-t-il un parallèle dans l'apprentissage automatique, qu'est-ce qu'un "sous-modèle paramétrique le moins favorable" et qu'est-ce qu'une "fonction de fluctuation" dans d'autres domaines?