Qu'est-ce que l '«attente de probabilité maximale ciblée»?

J'essaie de comprendre certains articles de Mark van der Laan. Il est un statisticien théorique à Berkeley travaillant sur des problèmes qui se chevauchent de manière significative avec l'apprentissage automatique. Un problème pour moi (en plus des mathématiques approfondies) est qu'il finit souvent par décrire des approches d'apprentissage machine familières en utilisant une terminologie complètement différente. Un de ses principaux concepts est "Attente maximale de vraisemblance ciblée".

TMLE est utilisé pour analyser les données d'observation censurées d'une expérience non contrôlée d'une manière qui permet une estimation de l'effet même en présence de facteurs de confusion. Je soupçonne fortement que plusieurs des mêmes concepts existent sous d'autres noms dans d'autres domaines, mais je ne le comprends pas encore assez bien pour le faire correspondre directement à quoi que ce soit.

Une tentative de combler le fossé avec «l'analyse des données informatiques» est ici:

Entrer dans l'ère de la science des données: apprentissage ciblé et intégration des statistiques et de l'analyse des données informatiques

Et une introduction pour les statisticiens est ici:

Inférence causale basée sur le maximum de vraisemblance ciblé: Partie I

A partir du second:

Dans cet article, nous développons un estimateur du maximum de vraisemblance ciblé particulier des effets causals de plusieurs interventions ponctuelles. Cela implique l'utilisation d'un superapprentissage basé sur les pertes pour obtenir une estimation initiale des facteurs inconnus de la formule de calcul G, puis l'application d'une fonction de fluctuation optimale spécifique au paramètre cible (sous-modèle paramétrique le moins favorable) à chaque facteur estimé, estimer le ou les paramètres de fluctuation avec une estimation du maximum de vraisemblance et itérer cette étape de mise à jour du facteur initial jusqu'à la convergence. Cette étape de mise à jour du maximum de vraisemblance ciblée itérative rend l’estimateur résultant de l’effet causal doublement robuste en ce sens qu’il est cohérent si l’estimateur initial est cohérent, ou l'estimateur de la fonction de fluctuation optimale est cohérent. La fonction de fluctuation optimale est correctement spécifiée si les distributions conditionnelles des nœuds dans le graphe causal sur lequel on intervient sont correctement spécifiées.

Dans sa terminologie, le «super apprentissage» est un apprentissage d'ensemble avec un schéma de pondération non négatif théoriquement solide. Mais que veut-il dire par "appliquer une fonction de fluctuation optimale spécifique au paramètre cible (sous-modèle paramétrique le moins favorable) à chaque facteur estimé".

Ou en le divisant en trois questions distinctes, TMLE a-t-il un parallèle dans l'apprentissage automatique, qu'est-ce qu'un "sous-modèle paramétrique le moins favorable" et qu'est-ce qu'une "fonction de fluctuation" dans d'autres domaines?

— Nathan Kurz
source

L'une des raisons pour lesquelles la terminologie n'est pas familière est que le but de TMLE est d'estimer l'effet moyen du traitement - inférence causale, pas prédiction. Quand j'ai lu "super apprenant" dans des articles sur TMLE, j'ai pensé que les auteurs avaient emprunté le terme du paquet SuperLearner dans R pour construire des modèles d'ensemble.

— RobertF

Je conviens que van der Laan a tendance à inventer de nouveaux noms pour des idées déjà existantes (par exemple le super-apprenant), mais TMLE n'en fait pas partie à ma connaissance. C'est en fait une idée très intelligente, et je n'ai rien vu de la communauté Machine Learning qui ressemble (bien que je puisse être juste ignorant). Les idées viennent de la théorie des équations d'estimation semiparamétriques efficaces, ce qui est quelque chose que les statisticiens pensent beaucoup plus que les ML.

L'idée est essentiellement la suivante. Supposons que soit un véritable mécanisme de génération de données et que l'intérêt porte sur une fonction particulière . Une telle fonction est souvent associée à une équation d'estimation $P_0$ $\Psi(P_0)$

\sum_{i} φ (Y_{i} ∣ θ) = 0,

$\sum_i \varphi(Y_i \mid \theta) = 0,$

où est déterminé d'une certaine façon par et contient suffisamment d'informations pour identifier . sera tel que . Résoudre cette équation dans peut, par exemple, être beaucoup plus facile que d'estimer l'ensemble de . Cette équation d'estimation est efficace en ce sens que tout estimateur efficace de est asymptotiquement équivalent à celui qui résout cette équation. $\theta = \theta(P)$ $P$ $\Psi$ $\varphi$ $E_{P} \varphi(Y \mid \theta) = 0$ $\theta$ $P_0$ $\Psi(P_0)$ (Remarque: je suis un peu lâche avec le terme «efficace», car je ne fais que décrire l'heuristique.) La théorie derrière de telles équations d'estimation est assez élégante, ce livre étant la référence canonique. C'est là que l'on pourrait trouver des définitions standard des "sous-modèles les moins favorables"; ce ne sont pas des termes inventés par van der Laan.

$P_0$ $P_0$ $\Psi(P_0)$ $P_0$ $\hat P$ $\Psi(\hat P)$ $\sqrt n$ $P_0$ $\Psi$

$\hat p$

{\hat{p}}_{1, ϵ} = \frac{\hat{p} \exp (ϵ φ (Y ∣ θ))}{\int \hat{p} \exp (ϵ φ (y ∣ θ)) d y}

$\hat p_{1, \epsilon} = \frac{\hat p \exp(\epsilon \ \varphi(Y \mid \theta))}{\int \hat p \exp(\epsilon \ \varphi(y \mid \theta)) \ dy}$

$\epsilon$ $\epsilon$ $\epsilon = 0$ $\hat p$ $\Psi$ $\epsilon \ne 0$ $\hat p_1$ $\hat p$

{\hat{p}}_{2, ϵ} \propto {\hat{p}}_{1, \hat{ϵ}} \exp (ϵ φ (Y ∣ θ) .

$\hat p_{2, \epsilon} \propto \hat p_{1, \hat \epsilon} \exp(\epsilon \ \varphi(Y \mid \theta).$

et ainsi de suite jusqu'à ce que nous obtenions quelque chose, dans la limite, qui satisfait l'équation d'estimation efficace.

— gars
source

"Je suis d'accord que van der Laan a tendance à inventer de nouveaux noms pour des idées déjà existantes" - Oui, voir cette introduction à TMLE: biostats.bepress.com/ucbbiostat/paper252 , où van der Laan utilise "grossissement au hasard" pour signifier échangeabilité et "hypothèse de traitement expérimental (ETA)" pour signifier la positivité. :-) Ce n'est pas très inhabituel dans notre domaine. Les scientifiques des données utilisent des termes tels que rappel, précision et tests A / B que j'ai appris comme sensibilité, valeur prédictive positive et test d'hypothèse au collège.

— RobertF

@RobertF CAR est dû à Heitjan et Rubin, et est une généralisation de MAR. Rubin a inventé le MAR et a également popularisé le cadre de résultats potentiels, donc l'utilisation de la CAR comme fourre-tout pour les hypothèses de type ignorabilité / interchangeabilité me semble juste.

— mec