@Tristan: J'espère que cela ne vous dérange pas que je retravaille votre réponse car je travaille sur la façon de rendre le point général aussi transparent que possible.
Pour moi, le principalla perspicacité en statistique est de conceptualiser des observations répétées qui varient - comme étant générées par un modèle générateur de probabilité, tel que Normal (mu, sigma). Au début des années 1800, les modèles générateurs de probabilités utilisés étaient généralement réservés aux erreurs de mesure avec le rôle de paramètres, tels que mu et sigma et les priors pour eux, confus. Les approches fréquentistes ont pris les paramètres comme fixes et inconnus et donc les modèles générateurs de probabilité ne comportaient alors que des observations possibles. Les approches bayésiennes (avec des a priori appropriés) ont des modèles générateurs de probabilité pour les paramètres inconnus possibles et les observations possibles. Ces modèles de génération de probabilités conjointes tiennent compte de façon exhaustive de toutes - pour le dire plus généralement - des inconnues possibles (telles que les paramètres) et connues (telles que les observations). Comme dans le lien de Rubin que vous avez donné,
En fait, cela a été très clairement décrit par Galton dans un quinconce à deux étages à la fin des années 1800, art. Voir figure 5> Stigler, Stephen M. 2010. Darwin, Galton et les statistiques
éclaircissement. Journal de la Royal Statistical Society: série A
173 (3): 469-482 . .
Il est équivalent mais peut-être plus transparent que
postérieure = antérieure (inconnues possibles | connues possibles = connues)
que postérieure ~ antérieure (inconnues possibles) * p (connues possibles = connues | inconnues possibles)
Rien de bien nouveau pour les valeurs manquantes dans le premier, car on ajoute simplement des inconnues possibles pour un modèle de probabilité générant des valeurs manquantes et traite les manquants comme l'un des possibles connus (c'est-à-dire que la troisième observation manquait).
Récemment, le calcul bayésien approximatif (ABC) a pris au sérieux cette approche constructive de simulation en deux étapes lorsque p (connus possibles = connus | inconnus possibles) ne peut pas être déterminé. Mais même lorsque cela peut être élaboré et que le postérieur est facilement accessible à partir de l'échantillonnage MCMC (ou même lorsque le postérieur est directement disponible en raison de la conjugaison préalable), l'argument de Rubin à propos de cette construction d'échantillonnage en deux étapes permettant une compréhension plus facile ne doit pas être ignoré.
Par exemple, je suis sûr qu'il aurait compris ce que @Zen a fait ici Bayesians: esclaves de la fonction de vraisemblance? car il faudrait tirer un possible inconnu c d'un précédent (stade un) puis dessiner un possible connu (données) étant donné que c (stade 2) qui n'aurait pas été une génération aléatoire comme p (possibles connus | c) serait pas été une probabilité sauf pour un et un seul c.
De @Zen «Malheureusement, en général, ce n'est pas une description valide d'un modèle statistique. Le problème est que, par définition,FXje∣ C(⋅ ∣ c ) doit être une densité de probabilité pour presque toutes les valeurs possibles dec, ce qui est, en général, clairement faux. "