Le lien entre les statistiques bayésiennes et la modélisation générative


15

Quelqu'un peut-il me renvoyer à une bonne référence qui explique le lien entre les statistiques bayésiennes et les techniques de modélisation générative? Pourquoi utilisons-nous habituellement des modèles génératifs avec des techniques bayésiennes?

Pourquoi est-il particulièrement intéressant d'utiliser les statistiques bayésiennes en l'absence de données complètes, voire pas du tout?

Notez que je viens d'un point de vue plus axé sur l'apprentissage automatique et que je souhaite en savoir plus à ce sujet dans la communauté des statistiques.

Toute bonne référence qui traite de ces points serait grandement appréciée. Merci.


J'ai exploré la différence fondamentale entre les modes de transformation adaptatifs et génératifs. Il semble que le bayésien soit adapté comme modèle statistique pour étudier l'adaptation mais pas la génération. Besoin d'arriver à cette conclusion avec plus de confiance.

1
Salut Srinidhi, bienvenue sur le site. Ceci est un site de questions et réponses. Pourriez-vous reformuler votre commentaire en question? De plus, plus une question est précise, plus elle a de chances d'obtenir une réponse utile.
naught101

Réponses:


12

Dans l'apprentissage automatique, un modèle de probabilité complet p (x, y) est appelé génératif car il peut être utilisé pour générer les données tandis qu'un modèle conditionnel p (y | x) est appelé discriminant car il ne spécifie pas de modèle de probabilité pour p (x ) et ne peut générer que x étant donné x. Les deux peuvent être estimés à la mode bayésienne.

L'estimation bayésienne consiste intrinsèquement à spécifier un modèle de probabilité complet et à effectuer une inférence conditionnelle au modèle et aux données. Cela fait que de nombreux modèles bayésiens ont une sensation générative. Cependant, pour un bayésien, la distinction importante n'est pas tant sur la façon de générer les données, mais plus sur ce qui est nécessaire pour obtenir la distribution postérieure des paramètres inconnus d'intérêt.

Le modèle discriminant p (y | x) fait partie d'un modèle plus grand où p (y, x) = p (y | x) p (x). Dans de nombreux cas, p (x) n'est pas pertinent pour la distribution postérieure des paramètres dans le modèle p (y | x). Plus précisément, si les paramètres de p (x) sont distincts de p (y | x) et que les a priori sont indépendants, alors le modèle p (x) ne contient aucune information sur les paramètres inconnus du modèle conditionnel p (y | x), donc un bayésien n'a pas besoin de le modéliser.


À un niveau plus intuitif, il existe un lien clair entre «générer des données» et «calculer la distribution postérieure». Rubin (1984) donne l'excellente description suivante de ce lien:

entrez la description de l'image ici


Les statistiques bayésiennes sont utiles compte tenu des données manquantes, principalement parce qu'elles fournissent un moyen unifié d'éliminer les paramètres de nuisance - l'intégration. Les données manquantes peuvent être considérées comme de (nombreux) paramètres de nuisance. Des propositions alternatives telles que le branchement de la valeur attendue donneront généralement de mauvais résultats car nous pouvons rarement estimer les cellules de données manquantes avec des niveaux de précision élevés. Ici, l'intégration est meilleure que la maximisation.

Les modèles discriminants comme p (y | x) deviennent également problématiques si x inclut des données manquantes car nous n'avons que des données pour estimer p (y | x_obs) mais les modèles les plus sensibles sont écrits par rapport aux données complètes p (y | x). Si vous avez un modèle de probabilité entièrement p (y, x) et êtes bayésien, alors tout va bien parce que vous pouvez simplement intégrer les données manquantes comme vous le feriez pour toute autre quantité inconnue.


2

@Tristan: J'espère que cela ne vous dérange pas que je retravaille votre réponse car je travaille sur la façon de rendre le point général aussi transparent que possible.

Pour moi, le principalla perspicacité en statistique est de conceptualiser des observations répétées qui varient - comme étant générées par un modèle générateur de probabilité, tel que Normal (mu, sigma). Au début des années 1800, les modèles générateurs de probabilités utilisés étaient généralement réservés aux erreurs de mesure avec le rôle de paramètres, tels que mu et sigma et les priors pour eux, confus. Les approches fréquentistes ont pris les paramètres comme fixes et inconnus et donc les modèles générateurs de probabilité ne comportaient alors que des observations possibles. Les approches bayésiennes (avec des a priori appropriés) ont des modèles générateurs de probabilité pour les paramètres inconnus possibles et les observations possibles. Ces modèles de génération de probabilités conjointes tiennent compte de façon exhaustive de toutes - pour le dire plus généralement - des inconnues possibles (telles que les paramètres) et connues (telles que les observations). Comme dans le lien de Rubin que vous avez donné,

En fait, cela a été très clairement décrit par Galton dans un quinconce à deux étages à la fin des années 1800, art. Voir figure 5> Stigler, Stephen M. 2010. Darwin, Galton et les statistiques

éclaircissement. Journal de la Royal Statistical Society: série A 173 (3): 469-482 . .

Il est équivalent mais peut-être plus transparent que

postérieure = antérieure (inconnues possibles | connues possibles = connues)

que postérieure ~ antérieure (inconnues possibles) * p (connues possibles = connues | inconnues possibles)

Rien de bien nouveau pour les valeurs manquantes dans le premier, car on ajoute simplement des inconnues possibles pour un modèle de probabilité générant des valeurs manquantes et traite les manquants comme l'un des possibles connus (c'est-à-dire que la troisième observation manquait).

Récemment, le calcul bayésien approximatif (ABC) a pris au sérieux cette approche constructive de simulation en deux étapes lorsque p (connus possibles = connus | inconnus possibles) ne peut pas être déterminé. Mais même lorsque cela peut être élaboré et que le postérieur est facilement accessible à partir de l'échantillonnage MCMC (ou même lorsque le postérieur est directement disponible en raison de la conjugaison préalable), l'argument de Rubin à propos de cette construction d'échantillonnage en deux étapes permettant une compréhension plus facile ne doit pas être ignoré.

Par exemple, je suis sûr qu'il aurait compris ce que @Zen a fait ici Bayesians: esclaves de la fonction de vraisemblance? car il faudrait tirer un possible inconnu c d'un précédent (stade un) puis dessiner un possible connu (données) étant donné que c (stade 2) qui n'aurait pas été une génération aléatoire comme p (possibles connus | c) serait pas été une probabilité sauf pour un et un seul c.

De @Zen «Malheureusement, en général, ce n'est pas une description valide d'un modèle statistique. Le problème est que, par définition,FXjeC(c) doit être une densité de probabilité pour presque toutes les valeurs possibles dec, ce qui est, en général, clairement faux. "

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.