Quelle est la différence entre maximiser la vraisemblance conditionnelle (log) ou vraisemblance conjointe (log) lors de l'estimation des paramètres d'un modèle?

Considérons une réponse y et de la matrice de données X . Supposons que je crée un modèle de formulaire -

y ~ g (X, $\theta$ )

(g () pourrait être n'importe quelle fonction de X et $\theta$ )

Maintenant, pour estimer $\theta$ en utilisant la méthode du maximum de vraisemblance (ML), je pourrais aller de l'avant soit avec ML conditionnelle (en supposant que je connais la forme de la densité conditionnelle f (y | X) ) soit avec ML mixte (en supposant que je connais la forme de la densité conjointe f (y, X ) ou de manière équivalente, f (X | y) * f (y) )

Je me demandais s'il y avait des considérations pour aller de l'avant avec l'une des deux méthodes ci-dessus en dehors de l'hypothèse concernant les densités. De plus, existe-t-il des cas (types de données spécifiques) où une méthode l'emporte sur la plupart du temps?

estimation maximum-likelihood optimization

— poisson régulier
source

Si vous avez beaucoup de données, je pense que les densités communes sont plus puissantes.

— user541686

Cela dépend de ce que vous voulez faire avec votre modèle plus tard.

Des modèles conjoints tentent de prédire l'ensemble de la distribution sur $X$ et $y$ . Il a quelques propriétés utiles:

Détection des valeurs aberrantes. Des échantillons très différents de vos échantillons d'apprentissage peuvent être identifiés car ils auront une faible probabilité marginale. Un modèle conditionnel ne sera pas forcément une balle pour vous le dire.
Parfois, c'est plus facile à optimiser. Si votre modèle était un modèle de mélange gaussien, disons, il existe des moyens bien documentés de l'ajuster à la densité de joint que vous pouvez simplement brancher (maximisation des attentes, bayésiens variationnels), mais les choses deviennent plus compliquées si vous souhaitez le former conditionnellement.
Selon le modèle , la formation peut potentiellement être mise en parallèle en tirant parti des indépendances conditionnelles, et vous pouvez également éviter d'avoir à la recycler ultérieurement si de nouvelles données deviennent disponibles. EG si chaque distribution marginale $f(X|y)$ est paramétré séparément, et vous observez un nouvel échantillon $(X=x_1,y=y_1)$ , la seule distribution marginale dont vous avez besoin pour vous recycler est $f(X|y=y_1)$ . Les autres distributions marginales $f(X|y=y_2), f(X|y=y_3), \ldots$ ne sont pas affectés. Cette propriété est moins courante avec les modèles conditionnels.
Je me souviens d'avoir lu un article qui indiquait que les modèles communs ont d'autres propriétés intéressantes dans les cas où il y a beaucoup, beaucoup de données, mais je ne me souviens pas de la revendication exacte, ou je la trouve dans mon grand dossier d'articles intéressants. Si je le trouve plus tard, je mettrai une référence.

Les modèles conditionnels ont cependant aussi des propriétés intéressantes

Ils peuvent très bien fonctionner.
Certains ont eu beaucoup de travail pour trouver des stratégies d'optimisation sensées (par exemple, prendre en charge les machines à vecteurs)
La distribution conditionnelle est très souvent «plus simple» à modéliser que le joint - pour modéliser ce dernier, il faut modéliser le premier ainsi que modéliser la distribution marginale. Si vous souhaitez uniquement obtenir des prévisions précises de la valeur $y$ est pour une donnée $X$ , il peut être plus judicieux de concentrer la capacité de votre modèle à représenter cela seul.

— Tapoter
source

Merci d'avoir répondu. Pouvez-vous également fournir des liens vers des documents pertinents?

— regularfish