Que signifie «la probabilité n'est définie que jusqu'à une constante multiplicative de proportionnalité» dans la pratique?

19

Je lis un article où les auteurs mènent d'une discussion sur l'estimation du maximum de vraisemblance au théorème de Bayes, apparemment comme une introduction pour les débutants.

À titre d'exemple de vraisemblance, ils commencent par une distribution binomiale:

p (x | n, θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x}

$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$

puis connectez les deux côtés

ℓ (θ | x, n) = x \ln (θ) + (n - x) \ln (1 - θ)

$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$

avec la justification que:

"Parce que la vraisemblance n'est définie que jusqu'à une constante multiplicative de proportionnalité (ou une constante additive pour la log-vraisemblance), nous pouvons redimensionner ... en supprimant le coefficient binomial et en écrivant la log-vraisemblance à la place de la vraisemblance"

Le calcul est logique, mais je ne comprends pas ce que l'on entend par "la probabilité n'est définie que jusqu'à une constante multiplicative de proportionnalité" et comment cela permet de supprimer le coefficient binomial et de passer de $p(x|n,\theta)$ à $\ell(\theta|x,n)$ .

Une terminologie similaire est apparue dans d'autres questions ( ici et ici ), mais on ne sait toujours pas quelle est, en pratique, la probabilité d'être définie ou de porter l'information à un moyen multiplicatif constant. Est-il possible d'expliquer cela en termes simples?

— kmm
source

18

Le fait est que parfois, des modèles différents (pour les mêmes données) peuvent conduire à des fonctions de vraisemblance qui diffèrent par une constante multiplicative, mais le contenu de l'information doit clairement être le même. Un exemple:

Nous modélisons expériences de Bernoulli indépendantes, conduisant à des données , chacune avec une distribution de Bernoulli avec le paramètre (probabilité) . Cela conduit à la fonction de vraisemblance Ou nous pouvons résumer les données par la variable binomiale distribuée , qui a une distribution binomiale, conduisant à la fonction de vraisemblance qui, en fonction du paramètre inconnu , est proportionnelle à l'ancienne fonction de vraisemblance . Les deux fonctions de vraisemblance contiennent clairement les mêmes informations et devraient conduire aux mêmes inférences! $n$ $X_1, \dots, X_n$ $p$

\prod_{je = 1}^{n} p^{X_{je}} (1 - p)^{1 - X_{je}}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}$

Y = X_{1} + X_{2} + \dots + X_{n}

$Y=X_1+X_2+\dotsm+X_n$

(\binom{n}{y}) p^{y} (1 - p)^{n - y}

$\binom{n}{y} p^y (1-p)^{n-y}$

p

$p$

Et en effet, par définition, ils sont considérés comme la même fonction de vraisemblance.

Autre point de vue: observez que lorsque les fonctions de vraisemblance sont utilisées dans le théorème de Bayes, comme cela est nécessaire pour l'analyse bayésienne, de telles constantes multiplicatives s'annulent tout simplement! ils sont donc manifestement sans rapport avec l'inférence bayésienne. De même, il s'annulera lors du calcul des rapports de vraisemblance, tels qu'ils sont utilisés dans les tests d'hypothèse optimaux (lemme de Neyman-Pearson.) Et il n'aura aucune influence sur la valeur des estimateurs du maximum de vraisemblance. Nous pouvons donc voir que dans une grande partie de l'inférence fréquentiste, il ne peut pas jouer un rôle.

Nous pouvons discuter d'un point de vue encore différent. La fonction de probabilité de Bernoulli (ci-après nous utilisons le terme "densité") ci-dessus est vraiment une densité par rapport à la mesure de comptage, c'est-à-dire la mesure sur les entiers non négatifs avec la masse un pour chaque entier non négatif. Mais nous aurions pu définir une densité par rapport à une autre mesure dominante. Dans cet exemple, cela semblera (et est) artificiel, mais dans les grands espaces (espaces fonctionnels), c'est vraiment fondamental! Utilisons à des fins d'illustration la distribution géométrique spécifique, écrite , avec , , et bientôt. Alors la densité de la distribution de Bernoulli par rapport à $\lambda$ $\lambda(0)=1/2$ $\lambda(1)=1/4$ $\lambda(2)=1/8$ $\lambda$ est donné par ce qui signifie que Avec cette nouvelle mesure dominante, la fonction de vraisemblance devient (avec la notation ci-dessus) notez le facteur supplémentaire . Ainsi, lors du changement de la mesure dominante utilisée dans la définition de la fonction de vraisemblance, une nouvelle constante multiplicative apparaît, qui ne dépend pas du paramètre inconnu

f_{λ} (x) = p^{x} (1 - p)^{1 - x} \cdot 2^{x + 1}

$f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1}$

P (X = X) = F_{λ} (X) \cdot λ (X)

$P(X=x)= f_\lambda(x) \cdot \lambda(x)$

\prod_{je = 1}^{n} p^{X_{je}} (1 - p)^{1 - X_{je}} 2^{X_{je} + 1} = p^{y} (1 - p)^{n - y} 2^{y + n}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n}$

2^{y + n}

$2^{y+n}$

p

$p$ , et est clairement hors de propos. C'est une autre façon de voir comment les constantes multiplicatives doivent être sans importance. Cet argument peut être généralisé en utilisant des dérivés de Radon-Nikodym (comme l'argument ci-dessus en est un exemple.)

— kjetil b halvorsen
source

"le contenu de l'information doit clairement être le même" Cela n'est vrai que si vous croyez au principe de vraisemblance!

— jsk

Oui, peut-être, mais j'ai montré comment cela découle des principes bayésiens.

— kjetil b halvorsen

@kjetilbhalvorsen Merci pour la réponse réfléchie! Une chose qui me laisse encore perplexe est la raison pour laquelle la probabilité de distribution de bernoulli n'inclut pas de coefficient binomial. Votre réponse montre clairement pourquoi cela n'a pas d'importance, mais je ne comprends pas pourquoi elle est laissée de côté en premier lieu.

— jvans

@jvans: C'est parce que le coefficient binomial ne dépend pas du paramètre inconnu, donc ne peut pas influencer la forme de la fonction de vraisemblance

— kjetil b halvorsen

12

Cela signifie essentiellement que seule la valeur relative du PDF est importante. Par exemple, le PDF normal (gaussien) standard est: , votre livre dit qu'ils pourraient utiliser place, car ils ne se soucient pas de l'échelle, c'est-à-dire . $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ $g(x)=e^{-x^2/2}$ $c=\frac{1}{\sqrt{2\pi}}$

Cela se produit car ils maximisent la fonction de vraisemblance, et et auront le même maximum. Par conséquent, le maximum de sera le même que de . Donc, ils ne se soucient pas de l'échelle. $c\cdot g(x)$ $g(x)$ $e^{-x^2/2}$ $f(x)$

— Aksakal
source

6

Je ne peux pas expliquer le sens de la citation, mais pour l' estimation du maximum de vraisemblance , peu importe que nous choisissions de trouver le maximum de la fonction de vraisemblance (considérée comme une fonction de ou le maximum d' où est une constante. C'est parce que nous ne sommes pas intéressés par la valeur maximale de mais plutôt par la valeur où ce maximum se produit, et à la fois et $L(\mathbf x; \theta)$ $\theta$ $aL(\mathbf x; \theta)$ $a$ $L(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $L(\mathbf x; \theta)$ $aL(\mathbf x; \theta)$ atteindre leur valeur maximale dans le même . Ainsi, les constantes multiplicatives peuvent être ignorées. De même, nous pourrions choisir de considérer toute fonction monotone (comme le logarithme) de la fonction de vraisemblance , déterminez le maximum de et en déduisez la valeur de . Pour le logarithme, la constante multipliative devient la constante additive et cela aussi peut être ignoré dans le processus de recherche de l'emplacement du maximum: $\theta_{\text{ML}}$ $g(\cdot)$ $L(\mathbf x; \theta)$ $g(L(\mathbf x;\theta))$ $\theta_{\text{ML}}$ $a$ $\ln(a)$ est maximisée au même point que . $\ln(a)+\ln(L(\mathbf x; \theta)$ $\ln(L(\mathbf x; \theta)$

En ce qui concerne l' estimation de la probabilité maximale a posteriori (MAP), est considéré comme une réalisation d'une variable aléatoire avec une fonction de densité a priori , les données sont considérées comme une réalisation d'une variable aléatoire , et la probabilité est considérée comme la valeur de la densité conditionnelle de conditionnée à $\theta$ $\Theta$ $f_{\Theta}(\theta)$ $\mathbf x$ $\mathbf X$ $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ $\mathbf X$ $\Theta = \theta$ ; ladite fonction de densité conditionnelle étant évaluée à . La densité a posteriori de est $\mathbf x$ $\Theta$ dans laquelle on reconnaît le numérateur comme ladensité conjointedes données et du paramètre à estimer. Le pointoù atteint sa valeur maximale est l'estimation MAP de, et, en utilisant les mêmes arguments que dans le paragraphe, nous voyons que nous pouvons ignorersur le côté droit de

\begin{matrix} (1) & f_{Θ ∣ X} (θ ∣ x) = \frac{f_{X ∣ Θ} (x ∣ Θ = θ) f_{Θ} (θ)}{f_{X} (x)} \end{matrix}

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$

f_{X, Θ} (x, θ)

$f_{\mathbf X, \Theta}(\mathbf x, \theta)$

θ_{MAP}

$\theta_{\text{MAP}}$

f_{Θ ∣ X} (θ ∣ x)

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$

θ

$\theta$

[f_{X} (x)]^{- 1}

$[f_{\mathbf X}(\mathbf x)]^{-1}$

comme constante multiplicative, tout comme nous pouvons ignorer les constantes multiplicatives à lafoisdans

et dans

. De même, lorsque des log-vraisemblances sont utilisées, nous pouvons ignorer les constantes additives.

(1)

$(1)$

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$

f_{Θ} (θ)

$f_\Theta(\theta)$

— Dilip Sarwate
source

L

$L$

a L

$aL$

a

$a$

5

$f(x)$ $kf(x)$

— Sergio
source

3

f (x)

$f(x)$

f (x) + 2

$f(x)+2$

S'il vous plaît, comme l'écrit Alecos Papadopoulos dans sa réponse, "la probabilité est d'abord une fonction de densité de probabilité conjointe". En raison de l'hypothèse iid pour les échantillons aléatoires, cette fonction conjointe est un produit de fonctions de densité simples, de sorte que des facteurs multiplicatifs se produisent, les addends non.

— Sergio

1

La fonction conjointe est un tel produit si et seulement si les données sont indépendantes. Mais MLE s'étend aux variables dépendantes, donc l'argument produit ne semble pas convaincant.

— whuber

1

$\text {argmax}$

Il peut y avoir des circonstances inhabituelles où vous devrez maximiser la probabilité soumise à un plafond - et alors vous devez vous «souvenir» d'inclure toutes les constantes dans le calcul de sa valeur.

En outre, vous pouvez effectuer des tests de sélection de modèle pour les modèles non imbriqués, en utilisant la valeur de la vraisemblance dans le processus - et puisque les modèles ne sont pas imbriqués, les deux probabilités auront des constantes différentes.

En dehors de cela, la phrase

"Parce que la vraisemblance n'est définie que jusqu'à une constante multiplicative de proportionnalité (ou une constante additive pour la log-vraisemblance)"

est faux , parce que la probabilité est d' abord une fonction de densité de probabilité conjointe , et pas seulement "n'importe quelle" fonction objective à maximiser.

— Alecos Papadopoulos
source

3

θ

$\theta$

θ

$\theta$

3

L (θ ∣ X) = F (X ∣ θ) .

$L(\boldsymbol \theta \mid \boldsymbol x) = f(\boldsymbol x \mid \boldsymbol \theta).$

1

$1$

1

$1$

1

@heropup J'ai déjà écrit qu'il ne s'intègre pas nécessairement à l'unité sur l'espace des paramètres, et donc, immédiatement, il ne peut pas être considéré comme une "fonction de densité" lorsqu'il est considéré comme une "fonction des paramètres".

— Alecos Papadopoulos

1

Oui je sais. Ce que je veux dire, c'est que l'expression "la fonction de vraisemblance est une fonction de densité, considérée comme une fonction des paramètres" prête elle-même à confusion. Il serait plus précis de dire quelque chose comme: "La fonction de vraisemblance est fonction des paramètres d'un échantillon fixe et est équivalente (ou proportionnelle) à la densité conjointe sur l'espace de l'échantillon."

— heropup

1

L (x ∣ θ) f (θ)

$L(x\mid \theta)f(\theta)$

L

$L$

f (θ)

$f(\theta)$

— Dilip Sarwate