Existe-t-il une approche bayésienne de l'estimation de la densité


22

Je suis intéressé à estimer la densité d'une variable aléatoire continue . Une façon de le faire que j'ai apprise est l'utilisation de l'estimation de la densité du noyau.X

Mais maintenant je m'intéresse à une approche bayésienne qui va dans le sens suivant. Je crois d' abord que suit une distribution . Je prends lectures de . Existe-t-il une approche pour mettre à jour fonction de mes nouvelles lectures?XFnXF

Je sais que j'ai l'impression de me contredire: si je crois uniquement en comme ma distribution antérieure, alors aucune donnée ne devrait me convaincre du contraire. Cependant, supposons que était et mes points de données étaient comme . En voyant , je ne peux évidemment pas m'en tenir à mon précédent, mais comment dois-je le mettre à jour?FFUnif[0,1](0.3,0.5,0.9,1.7)1.7

Mise à jour: Sur la base des suggestions dans les commentaires, j'ai commencé à regarder le processus Dirichlet. Permettez-moi d'utiliser les notations suivantes:

GDP(α,H)θi|GGxi|θiN(θi,σ2)

Après avoir cadré mon problème d'origine dans cette langue, je suppose que je suis intéressé par ce qui suit: . Comment est-que quelqu'un peut faire ça?θn+1|x1,...,xn

Dans cet ensemble de notes (page 2), l'auteur a fait un exemple de (Schéma d'urne Polya). Je ne sais pas si cela est pertinent.θn+1|θ1,...,θn

Mise à jour 2: Je souhaite également demander (après avoir vu les notes): comment les gens choisissent-ils pour le DP? Cela semble être un choix aléatoire. De plus, comment les gens choisissent-ils un antérieur pour le DP? Dois-je simplement utiliser un a priori pour comme mon a priori pour ?H θ HαHθH


2
"Si je crois uniquement en F comme ma distribution antérieure, alors aucune donnée ne devrait me convaincre du contraire." C'est l'antithèse de l'inférence bayésienne, qui est plus dans le sens de prendre ce que vous croyez en une main et le monde de l'autre, et de les museler ensemble et de voir ce qui sort. Laver, rincer, répéter.
Alexis

Savez-vous quelque chose sur le processus dirichlet?
niandra82

Ignorer votre dernier paragraphe: il existe deux options courantes à ce problème. L'un est un mélange fini de normales (vous pouvez choisir le nombre de normales en fonction de la probabilité dans la validation croisée) ou un mélange infini de normales comme le suggère @ niandra82. Cela peut être fait avec quelque chose comme l'échantillonnage de Gibbs ou l'inférence variationnelle. Connaissez-vous l'une de ces méthodes?

Je devrais également demander, comment comptez-vous utiliser ce KDE? La méthode choisie et la taille (infinie, finie) peuvent dépendre de votre objectif.

Cela ressemble à un problème de choix de modèle ou à un problème philosophique. En réalité, notre choix de la probabilité d'utiliser dans l'inférence bayésienne impose également des croyances préalables ...
Zoë Clark

Réponses:


2

Puisque vous voulez une approche bayésienne, vous devez supposer une connaissance préalable de la chose que vous souhaitez estimer. Ce sera sous la forme d'une distribution.

Maintenant, il y a le problème que c'est maintenant une distribution sur les distributions. Cependant, cela ne pose aucun problème si vous supposez que les distributions candidates proviennent d'une classe de distributions paramétrée.

Par exemple, si vous voulez supposer que les données sont de distribution gaussienne avec une moyenne inconnue mais une variance connue, alors tout ce dont vous avez besoin est un prior sur la moyenne.

L'estimation MAP du paramètre inconnu (appelons-le ) pourrait procéder en supposant que tous les points d'observation / de données sont conditionnellement indépendants étant donné le paramètre inconnu. Ensuite, l'estimation MAP estθ

θ^=argmaxθ(Pr[x1,x2,...,xn,θ])

Pr[x1,x2,...,xn,θ]=Pr[x1,x2,...,xn|θ]Pr[θ]=Pr[θ]i=1nPr[xi|θ] .

Il convient de noter qu'il existe des combinaisons particulières de la probabilité antérieure et des distributions candidates qui donnent lieu à des mises à jour faciles (sous forme fermée) à mesure que davantage de points de données sont reçus.Pr [ x | θ ]Pr[θ]Pr[x|θ]


1

Aux fins d'estimation de la densité, ce dont vous avez besoin n'est pas

θn+1|x1,,xn .

La formule dans les notes renvoie à la distribution prédictive du processus de Dirichlet.θn+1|θ1,,θn

Pour l'estimation de la densité, vous devez réellement échantillonner à partir de la distribution prédictive

π(dxn+1|x1,,xn)

L'échantillonnage à partir de la distribution ci-dessus peut être effectué soit avec des méthodes conditionnelles soit avec des méthodes marginales. Pour les méthodes conditionnelles, jetez un œil à l'article de Stephen Walker [1]. Pour les méthodes marginales, vous devriez vérifier sur le papier Radford Neal [2].

Pour le paramètre de concentration Mike West [3] propose une méthode d'inférence dans la procédure MCMC comprenant une distribution conditionnelle complète pour . Si vous décidez de ne pas mettre à jour la concentration dans la procédure MCMC, vous devez garder à l'esprit que si vous choisissez une valeur élevée pour celle-ci, le nombre de valeurs distinctes tirées du processus Dirichlet sera supérieur au nombre de valeurs distinctes. quand un petit nombre pour sera utilisé.αααα

[1] SG, Walker (2006). Échantillonnage du modèle Dirichlet Mixture avec des tranches. Communications en statistique (simulation et calcul).

[2] RM, Neal (2000) Méthodes Markov Chain Monte Carlo pour les modèles Dirichlet Process Mixture. Journal of Computational and Graphical Statistics. Vol 9, no 2, pp 249-265

[3] M., West (1992). Estimation hyperparamétrique dans les modèles de mélange de processus de Dirichlet. Rapport technique


-1

Existe-t-il une approche pour mettre à jour F en fonction de mes nouvelles lectures?

Il y a quelque chose précisément pour ça. C'est à peu près l'idée principale de l'inférence bayésienne.

p(θ|y)p(y|θ)p(θ)

Le est votre avant, ce que vous appelez . Le est ce que les Bayésiens appellent la "vraisemblance" et c'est la probabilité d'observer vos données étant donné une certaine valeur de thêta. Il vous suffit de les multiplier et d'obtenir ce que l'on appelle une distribution "postérieure" de . Ceci est votre "F mis à jour". Consultez le chapitre 1 de tout livre d'introduction aux statistiques bayésiennes.F p ( y | θ ) θp(θ)Fp(y|θ)θ

Vous n'avez pas à vous débarrasser de (votre précédent), il vous suffit de réaliser que ce n'est plus votre meilleure estimation, maintenant que vous avez des données pour l'affiner.p(θ)


3
FX1,,XnjejeFL ( F ) = N i = 1 d FFFL(F)=je=1NFX|X=XjeF
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.