Pourquoi ne pas utiliser le théorème de Bayes sous la forme ?


10

Il y a beaucoup de questions (comme celle-ci ) sur une ambiguïté avec la formule bayésienne en cas continu.

p(θ|x)=p(x|θ)p(θ)p(x)

Souvent, la confusion vient du fait que la définition de la distribution conditionnelle est expliquée comme étant fonction de la donnée fixe .f(variable|parameter)fvariableparameter

Parallèlement à cela, il existe un principe d'équivalence stipulant que la probabilité peut être écrite comme:

L(θ|x)=p(x|θ)

Alors pourquoi ne pas utiliser la règle de Bayes pour les distributions sous la forme suivante:

p(θ|x)=L(θ|x)p(θ)p(x)

pour souligner que nous avons affaire à des fonctions de étant donné données observées x , et que le terme respectif est vraisemblance (au moins, en commençant par L )?θxL

Est-ce une question de tradition ou y a-t-il quelque chose de plus fondamental dans cette pratique?


Quelle est la signification de ? Je sais que c'est une probabilité. Mais dans le cas continu, je ne vois pas de quelle probabilité vous parlez. p()
Sextus Empiricus

@MartijnWeterings, les fonctions doivent être des distributions de probabilités valides dans tous les cas sauf quand il s'agit de "vraisemblance" de la forme . Suis-je en train de manquer quelque chose? p()p(x|θ)
IOT

Qu'entendez-vous par distribution de probabilité? Cumulatif, densité, etc.?
Sextus Empiricus

1
Cela pourrait aider à prendre du recul et à réaliser qu'il n'y a pas de "variables" dans le théorème de Bayes, du moins lorsque vous utilisez le terme. Il y a des points de données et des paramètres de modèle. En ce sens, . Vous invoquez une créature postérieure que vous appelez ensuite la vraisemblance. Mais ce n'est pas le cas. Je ne sais donc pas où vous allez avec cela. Et en général, qui est absurde dans le cas où et et n'ont même pas le même support. P(model|data)P(data)=P(data,model)=P(data|model)P(model)P(model|data)p(x|y)=p(y|x)p(x)=p(y)x=datay=model. xy
Peter Leopold

Réponses:


7

Il y a deux résultats de base de la probabilité qui sont à l'œuvre dans le théorème de Bayes. L'un est un moyen de réécrire une fonction de densité de probabilité conjointe :

p(x,y)=p(x|y)p(y).

L'autre est une formule pour calculer une fonction de densité de probabilité conditionnelle :

p(y|x)=p(x,y)p(x).

Le théorème de Bayes assemble simplement ces deux choses ensemble:

p(θ|x)=p(x,θ)p(x)=p(x|θ)p(θ)p(x)

Donc, les données et les paramètres sont des variables aléatoires avec pdf communxθ

p(x,θ)=p(x|θ)p(θ),
et c'est ce qui apparaît au numérateur dans le théorème de Bayes. Ainsi, l'écriture de la probabilité sous la forme d'une densité de probabilité conditionnelle au lieu d'une fonction des paramètres rend claire la probabilité de base en jeu.L

Cela dit, vous verrez des gens utiliser, comme ici ou ici .


@iot Dans les statistiques classiques, vous pouvez estimer les paramètres en trouvant le qui maximise en fonction deθp(x|θ)θ . Les gens écriront donc et essaieront de calculer . Dans ce cas, vous ne vous souciez pas du "statut" de tant que pdf conditionnel sur . Vous vous souciez de son statut en tant que fonction à valeur réelle de que vous souhaitez maximiser par rapport à . Ainsi, la notation de style est un maintien de ce paramètre. L(θ)=p(x|θ)θ^MLE=argmaxL(θ)p(x|θ)xθθL()
jcz

10

La fonction de vraisemblance est simplement proportionnelle à la densité d'échantillonnage, dans le sens où vous avez pour une constante (bien que vous devriez noter que la probabilité est une fonction du paramètre, pas des données). Si vous souhaitez utiliser cela dans votre expression pour le théorème de Bayes, vous devez inclure la même constante de mise à l'échelle dans le dénominateur:Lx(θ)=k(x)p(x|θ)k(x)>0

p(θ|x)=Lx(θ)p(θ)k(x)p(x)=Lx(θ)p(θ)Lx(θ)p(θ) dθLx(θ)p(θ).

Si vous utilisez plutôt la formule que vous avez proposée, vous vous retrouverez avec un noyau de densité postérieure, mais il peut ne pas s'intégrer à un (et donc ce n'est généralement pas une densité).


2
J'aime votre réponse, mais dans la formule originale avec étant fixe (contexte bayésien) n'a pas non plus une distribution de probabilité valide , et est également un facteur d'échelle non égal à 1. Alors, pourquoi pensez-vous que n'est pas l'unité dans votre explication? p(x|θ)xp(x)k
garej

1
Très souvent, nous formulons la fonction de vraisemblance en supprimant les parties multiplicatives qui ne dépendent pas du paramètre d'intérêt. Nous le faisons afin de simplifier l'analyse, en évitant d'avoir à suivre une constante d'intégration. Par exemple, si alors nous , suppression du coefficient binomial dans la distribution binomiale. Dans ce cas, nous avons , qui n'est généralement pas égal à un. p(x|θ)=Bin(x|n,θ)Lx(θ)=θx(1θ)nxk=(nx)
Ben - Réintègre Monica le

1
votre point est donc qu'il existe une convention selon laquelle la probabilité est généralement exempte de constantes inutiles et donc la version de l'iot pourrait être quelque peu trompeuse pour les statisticiens?
garej

Bien qu'il s'agisse en effet d'une manière conventionnelle de définir la probabilité, le fait est que la fonction de vraisemblance n'est généralement définie que jusqu'à la proportionnalité, il n'y a donc aucune garantie que dans le fonctionnement ci-dessus. k=1
Ben - Rétablir Monica

C'est la première fois que je lis que la probabilité est proportionnelle à une densité. Pour moi, ce n'est qu'un tronçon et peut-être mal. Le problème réside dans la terminologie qui se chevauche. Nous ne devrions pas appeler une densité une probabilité, dans la règle des Bayes, mais nous continuons à le faire.
nbro
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.