L'entrée de Wikipedia sur la probabilité semble ambiguë

26

J'ai une question simple concernant la "probabilité conditionnelle" et la "probabilité". (J'ai déjà sondé cette question ici mais en vain.)

Cela commence à partir de la page Wikipedia sur la probabilité . Ils disent ceci:

La probabilité d'un ensemble de valeurs de paramètres, $\theta$ , compte tenu des résultats $x$ , est égale à la probabilité de ces résultats observés compte tenu de ces valeurs de paramètre, c'est-à-dire

$L (θ ∣ x) = P (x ∣ θ)$ $\mathcal{L}(\theta \mid x) = P(x \mid \theta)$

Génial! Donc en anglais, je lis ceci: "La probabilité de paramètres égalant thêta, étant donné les données X = x, (le côté gauche), est égale à la probabilité que les données X soient égales à x, étant donné que les paramètres sont égaux à thêta ". ( Gras est à moi pour souligner ).

Cependant, pas moins de 3 lignes plus tard sur la même page, l'entrée Wikipedia continue ensuite en disant:

Soit une variable aléatoire avec une distribution de probabilité discrète fonction d'un paramètre . Ensuite, la fonction $X$ $p$ $\theta$

$L (θ ∣ x) = p_{θ} (x) = P_{θ} (X = x),$ $\mathcal{L}(\theta \mid x) = p_\theta (x) = P_\theta (X=x), \,$
considérée comme une fonction de $\theta$ , est appelée fonction de vraisemblance (de $\theta$ , étant donné le résultat $x$ de la variable aléatoire $X$ ). Parfois, la probabilité de la valeur $x$ de $X$ pour la valeur du paramètre $\theta$ s'écrit $P(X=x\mid\theta)$ ; souvent écrit comme $P(X=x;\theta)$ pour souligner que cela diffère de $\mathcal{L}(\theta \mid x)$ qui n'est pas une probabilité conditionnelle , car $\theta$ est un paramètre et non une variable aléatoire.

( Gras est à moi pour souligner ). Donc, dans la première citation, on nous dit littéralement une probabilité conditionnelle de $P(x\mid\theta)$ , mais immédiatement après, on nous dit que ce n'est en fait PAS une probabilité conditionnelle, et devrait en fait être écrit comme $P(X = x; \theta)$ ?

Alors, lequel est-ce? La vraisemblance connote-t-elle réellement une probabilité conditionnelle comme première citation? Ou est-ce que cela implique une probabilité simple, comme la deuxième citation?

MODIFIER:

Sur la base de toutes les réponses utiles et perspicaces que j'ai reçues jusqu'à présent, j'ai résumé ma question - et ma compréhension jusqu'à présent:

En anglais , on dit que: "La vraisemblance est fonction des paramètres, DONNÉ les données observées." En mathématiques , nous l'écrivons comme: . $L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x)$
La vraisemblance n'est pas une probabilité.
La vraisemblance n'est pas une distribution de probabilité.
La vraisemblance n'est pas une masse de probabilité.
La vraisemblance est cependant, en anglais : "Un produit de distributions de probabilité, (cas continu), ou un produit de masses de probabilité, (cas discret), où , et paramétré par . " En mathématiques , nous l'écrivons alors comme suit: (cas continu, où est un PDF), et comme (cas discret, où est une masse de probabilité). Le point à retenir ici est qu'à aucun moment ici que ce soit $\mathbf{X} = x$ $\mathbf{\Theta}= \theta$ $L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = f(\mathbf{X}=x ; \mathbf{\Theta}= \theta)$ $f$
$L(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = P(\mathbf{X}=x ; \mathbf{\Theta}= \theta)$ $P$ est une probabilité conditionnelle entrant en jeu.
Dans le théorème de Bayes, nous avons: . Familièrement, on nous dit que " est une probabilité", cependant, ce n'est pas vrai , car pourrait être un variable aléatoire réelle. Par conséquent, ce que nous pouvons dire correctement, cependant, est que ce terme est simplement "similaire" à une vraisemblance. (?) [Sur cela, je ne suis pas sûr.] $P(\mathbf{\Theta}= \theta \mid \mathbf{X}=x) = \frac{P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta) \ P(\mathbf{\Theta}= \theta)}{P(\mathbf{X}=x)}$ $P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta)$ $\mathbf{\Theta}$ $P(\mathbf{X}=x \mid \mathbf{\Theta}= \theta)$

EDIT II:

Sur la base de la réponse de @amoebas, j'ai dessiné son dernier commentaire. Je pense que c'est assez élucidant, et je pense que cela clarifie le principal argument que j'avais. (Commentaires sur l'image).

EDIT III:

J'ai également étendu les commentaires de @amoebas au cas bayésien:

— Creatron
source

Vous avez déjà obtenu deux bonnes réponses, mais consultez également stats.stackexchange.com/q/112451/35989

— Tim

@Tim Excellent lien merci! Malheureusement, je ne suis toujours pas clair quant aux questions spécifiques que j'ai face à la vraisemblance et à la probabilité conditionnelle (?) Qu'elle semble évoquer. Sur ce point, je ne suis toujours pas clair. : - /

— Creatron

2

«Étant donné que» ne signifie pas toujours une probabilité conditionnelle. Parfois, cette phrase est simplement une tentative d'indiquer quels symboles sont destinés à être fixés dans un calcul ou conceptuellement.

— whuber

2

Certaines personnes utilisent en effet une telle convention typographique avec des points-virgules. Il existe de très nombreuses conventions: indices, exposants, etc.

— whuber

4

Lorsque est une variable aléatoire (c'est-à-dire une valeur considérée comme provenant de la variable aléatoire ), rien dans la définition de la probabilité ne change. C'est encore une probabilité. Logiquement, ce n'est pas différent de dire qu'un papillon bleu est toujours un papillon. Techniquement, cela soulève des problèmes de distribution conjointe de et . Évidemment, cette distribution conjointe doit être bien définie et bénéficier de certaines "conditions de régularité" avant de pouvoir identifier la probabilité avec une probabilité conditionnelle.

θ

$\theta$

Θ

$\Theta$ $\Theta$ $x$

— whuber

18

Je pense que c'est en grande partie inutile de couper les cheveux.

La probabilité conditionnelle de étant donnée est définie pour deux variables aléatoires et prenant les valeurs et . Mais on peut aussi parler de probabilité de donnée où n'est pas une variable aléatoire mais un paramètre. $P(x\mid y)\equiv P(X=x \mid Y=y)$ $x$ $y$ $X$ $Y$ $x$ $y$ $P(x\mid\theta)$ $x$ $\theta$ $\theta$

Notez que dans les deux cas, le même terme «donné» et la même notation peuvent être utilisés. Il n'est pas nécessaire d'inventer des notations différentes. De plus, ce qui est appelé "paramètre" et ce qui est appelé "variable aléatoire" peut dépendre de votre philosophie, mais les mathématiques ne changent pas. $P(\cdot\mid\cdot)$

La première citation de Wikipedia indique que par définition. Ici, on suppose que est un paramètre. La deuxième citation dit que n'est pas une probabilité conditionnelle. Cela signifie que ce n'est pas une probabilité conditionnelle de étant donné ; et en effet il ne peut pas l'être, car est supposé être un paramètre ici. $\mathcal{L}(\theta \mid x) = P(x \mid \theta)$ $\theta$ $\mathcal{L}(\theta \mid x)$ $\theta$ $x$ $\theta$

Dans le contexte du théorème de Bayes foisetsontvariables aléatoires. Mais on peut toujours appeler«vraisemblance» (de), et maintenant c'est aussi uneprobabilité conditionnelle debonne foi(de). Cette terminologie est standard dans les statistiques bayésiennes. Personne ne dit que c'est quelque chose de "similaire" à la vraisemblance; les gens l'appellent simplement la probabilité.

P (a ∣ b) = \frac{P (b ∣ a) P (a)}{P (b)},

$P(a\mid b)=\frac{P(b\mid a)P(a)}{P(b)},$

a

$a$

b

$b$

P (b ∣ a)

$P(b\mid a)$

a

$a$

b

$b$

Note 1: Dans le dernier paragraphe, est évidemment une probabilité conditionnelle de . Comme une probabilité elle est considérée comme une fonction de ; mais ce n'est pas une distribution de probabilité (ou probabilité conditionnelle) de ! Son intégrale sur n'est pas nécessairement égale à . (Alors que son intégrale sur fait.) $P(b\mid a)$ $b$ $\mathcal L(a\mid b)$ $a$ $a$ $a$ $1$ $b$

Remarque 2: Parfois, la vraisemblance est définie jusqu'à une constante de proportionnalité arbitraire, comme le souligne @MichaelLew (car la plupart du temps, les gens sont intéressés par les rapports de vraisemblance ). Cela peut être utile, mais n'est pas toujours fait et n'est pas essentiel.

Voir aussi Quelle est la différence entre "vraisemblance" et "probabilité"? et en particulier la réponse de @ whuber là-bas.

Je suis entièrement d'accord avec la réponse de @ Tim dans ce fil aussi (+1).

— amibe dit réintégrer Monica
source

1

Donc, une probabilité, en fait, peut être égale à, une probabilité conditionnelle (selon le dernier paragraphe), n'est- ce pas? C'est ce que j'essaie de concilier. Par exemple, dans l'une des premières réponses, nous avons: " Premièrement, la probabilité ne peut généralement pas être égale à la probabilité des données étant donné la valeur du paramètre, car la probabilité n'est définie que jusqu'à une constante de proportionnalité . Fisher l'a expliqué explicitement quand il première vraisemblance formalisée (Fisher, 1922). "C'est ce que j'essaie de concilier. La probabilité - la probabilité - est-elle jamais égale à une probabilité conditionnelle?

— Creatron

@Creatron J'ai ajouté deux notes à ma réponse. Le clarifient-ils?

— amibe dit Réintégrer Monica le

1

En ce qui concerne Note1: Puisque

est une distribution de probabilité conditionnelle, et puisque

ne peut pas être une distribution de probabilité, alors il me semble que la façon la plus «correcte» que nous pouvons écrire l'équation pour la probabilité dans ce contexte est:

, et non pas comme,

P (b | a)

$P(b|a)$

L (a | b)

$L(a|b)$

L (a | b) \propto P (b | a)

$L(a|b) \propto P(b|a)$

L (a | b) = P (b | a)

$L(a|b) = P(b|a)$ . (Je sais que dans l'optimisation, cela ne fait aucune différence, mais j'essaie de déterminer l'exactitude de la probabilité ici). Ma compréhension est-elle correcte? Merci pour votre patience.

— Creatron

1

@Creatron Je pense que vous confondez ici plusieurs problèmes distincts. Je suppose que vous parlez d'un cadre de théorème de Bayes (auquel fait référence ma note 1), où

et

sont des événements aléatoires. Bon, donc

est une distribution de probabilité conditionnelle de

étant donné

. Mais

est censé être vu en fonction de

, pas de

! Et ce n'est pas la distribution de probabilité d'

a

$a$

b

$b$

P (b | a)

$P(b|a)$

b

$b$

a

$a$

L (a | b)

$L(a|b)$

a

$a$

b

$b$

a

$a$ car il ne résume pas à un. Cela n'a rien à voir avec la question ou la proportionnalité (qui est ma note 2). Je pense que nous pouvons écrire

.

L (a | b) = P (b | a)

$L(a|b)=P(b|a)$

— amibe dit Réintégrer Monica

1

Amibe, merci !! Vous avez contribué à dénouer ces concepts pour moi, merci beaucoup !! :) Je viens "d'étendre" le diagramme au cas bayésien et j'apprécierais vos commentaires pour m'assurer d'avoir bien compris. J'ai également accepté votre réponse. Encore une fois, massivement gracieux!

— Creatron

10

Vous avez déjà obtenu deux belles réponses, mais comme cela ne semble toujours pas clair pour vous, laissez-moi vous en fournir une. La probabilité est définie comme

L (θ | X) = P (X | θ) = \prod_{i} f_{θ} (x_{i})

$\mathcal{L}(\theta|X) = P(X|\theta) = \prod_i f_\theta(x_i)$

nous avons donc la probabilité d'une valeur de paramètre donné les données . Il est égal au produit des fonctions de masse de probabilité (cas discret) ou de densité (cas continu) de paramétrées par . La vraisemblance est une fonction du paramètre étant donné les données. Notez que est un paramètre que nous optimisons, pas une variable aléatoire, donc il n'a pas de probabilités qui lui sont assignées. C'est pourquoi Wikipedia déclare que l'utilisation de la notation de probabilité conditionnelle peut être ambiguë, car nous ne conditionnons sur aucune variable aléatoire. D'un autre côté, dans le cadre bayésien, est $\theta$ $X$ $f$ $X$ $\theta$ $\theta$ $\theta$ une variable aléatoire et a une distribution, nous pouvons donc travailler avec elle comme avec toute autre variable aléatoire et nous pouvons utiliser le théorème de Bayes pour calculer les probabilités postérieures. La vraisemblance bayésienne est toujours vraisemblable puisqu'elle nous renseigne sur la vraisemblance des données compte tenu du paramètre, la seule différence est que le paramètre est considéré comme une variable aléatoire.

Si vous connaissez la programmation, vous pouvez considérer la fonction de vraisemblance comme une fonction surchargée dans la programmation. Certains langages de programmation vous permettent d'avoir une fonction qui fonctionne différemment lorsqu'elle est appelée à l'aide de différents types de paramètres. Si vous pensez à une vraisemblance comme celle-ci, alors par défaut, if prend comme argument une valeur de paramètre et renvoie la vraisemblance de données compte tenu de ce paramètre. D'un autre côté, vous pouvez utiliser une telle fonction dans un cadre bayésien, où le paramètre est une variable aléatoire, cela conduit à la même sortie, mais cela peut être compris comme une probabilité conditionnelle puisque nous conditionnons sur une variable aléatoire. Dans les deux cas, la fonction fonctionne de la même manière, il suffit de l'utiliser et de la comprendre un peu différemment.

// likelihood "as" overloaded function
Default Likelihood(Numeric theta, Data X) {
    return f(X, theta); // returns likelihood, not probability
}

Bayesian Likelihood(RandomVariable theta, Data X) {
    return f(X, theta); // since theta is r.v., the output can be
                        // understood as conditional probability
}

De plus, vous ne trouverez pas plutôt des Bayésiens qui écrivent le théorème de Bayes comme

P (θ | X) \propto L (θ | X) P (θ)

$P(\theta|X) \propto \mathcal{L}(\theta|X) P(\theta)$

... ce serait très déroutant . D'abord, vous auriez deux côtés de l'équation et cela n'aurait pas beaucoup de sens. Deuxièmement, nous avons une probabilité postérieure de connaître la probabilité de données données (c'est-à-dire la chose que vous aimeriez savoir dans le cadre vraisemblable, mais vous ne le faites pas lorsque n'est pas une variable aléatoire). Troisièmement, puisque est une variable aléatoire, nous l'avons et l'écrivons comme probabilité conditionnelle. Le $\theta|X$ $\theta$ $\theta$ $\theta$ $L$ -notation est généralement réservée au cadre vraisemblable. La vraisemblance du nom est utilisée par convention dans les deux approches pour désigner une chose similaire: la probabilité d'observer de telles données change en fonction de votre modèle et du paramètre.

— Tim
source

Merci Tim, cela m'a été très utile dans ma compréhension. J'ai re-consolidé ma question (voir sous "Modifier") avec cette nouvelle connaissance. Je crois que tout ce que j'ai écrit là-bas est vrai. Le seul point d'arrêt est le dernier point de la liste sur la règle de Bayes. Si vous pouviez y jeter un œil, j'apprécierais beaucoup cela. Merci encore et ayez un vote positif!

— Creatron

1

@Creatron J'ai ajouté une phrase commentant votre dernière puce à ma réponse, j'espère qu'elle est maintenant claire - sinon, dites-le.

— Tim

(1/2) Vos modifications sur l'opérateur surchargé m'aident beaucoup. Dans ce cas, il me semble que nous pouvons dire ceci: 1) Sous le «mathématiquement pur» (cas historique dans le sens de ce que Fisher a probablement voulu dire), cas où

n'est pas une variable aléatoire et est plutôt un paramètre d'un PDF, (ou d'une fonction d'un paramètre?), alors la vraisemblance est égale à la probabilité de

. La fonction de vraisemblance n'est PAS une distribution de probabilité, bien sûr, mais elle est ÉGALE à la probabilité de

. Est-ce correct?

θ

$\theta$

P (X = x; θ)

$P(X=x ; \theta)$

P (X = x; θ)

$P(X=x ; \theta)$

— Creatron

(2/2) Dans le deuxième cas cependant, (2), lorsque le contexte est un cadre bayésien, alors dans ce cas nos paramètres sont un rv, et donc dans ce cas la probabilité EST en fait, une distribution de probabilité conditionnelle, de P (b | a), écrit cependant, comme L (a | b). Ainsi, dans le premier cas `` par défaut '', la probabilité n'était certainement PAS une distribution de probabilité, (mais était égale à une valeur de probabilité), mais dans le second cas, la probabilité EST en fait une distribution de probabilité, et cette distribution de probabilité est une conditionnelle probabilité, écrite comme P (b | a). Est-ce correct?

— Creatron

2

Merci Tim, même si j'ai accepté la réponse de @amoeba, votre message m'a vraiment aidé à comprendre ce concept varié et profond, en particulier votre analogie avec les fonctions surchargées. Merci encore!

— Creatron

7

Il existe plusieurs aspects des descriptions courantes de la probabilité qui sont imprécis ou omettent des détails de manière à créer de la confusion. L'entrée Wikipedia est un bon exemple.

Premièrement, la vraisemblance ne peut généralement pas être égale à la probabilité des données étant donné la valeur du paramètre, car la vraisemblance n'est définie que jusqu'à une constante de proportionnalité. Fisher a été explicite à ce sujet lors de sa première formalisation de la probabilité (Fisher, 1922). La raison semble être le fait qu'il n'y a aucune restriction sur l'intégrale (ou la somme) d'une fonction de vraisemblance, et la probabilité d'observer les données dans un modèle statistique étant donné n'importe quelle valeur du ou des paramètres est fortement affectée par la précision des valeurs des données et de la granularité de spécification des valeurs des paramètres. $x$

Deuxièmement, il est plus utile de penser à la fonction de vraisemblance qu'aux probabilités individuelles. La fonction de vraisemblance est une fonction de la ou des valeurs des paramètres du modèle, comme cela ressort clairement d'un graphique d'une fonction de vraisemblance. Un tel graphique permet également de voir facilement que les probabilités permettent un classement des différentes valeurs du ou des paramètres en fonction de la façon dont le modèle prédit les données lorsqu'il est défini sur ces valeurs de paramètre. L'exploration des fonctions de vraisemblance rend les rôles des données et des valeurs des paramètres beaucoup plus clairs, à mon avis, que la cogitation des diverses formules données dans la question initiale.

L'utilisation d'un rapport de paires de vraisemblances dans une fonction de vraisemblance comme degré de soutien relatif offert par les données observées pour les valeurs des paramètres (dans le modèle) contourne le problème des constantes de proportionnalité inconnues car ces constantes s'annulent dans le rapport. Il est important de noter que les constantes ne s'annuleraient pas nécessairement dans un rapport de vraisemblances qui proviennent de fonctions de vraisemblance distinctes (c'est-à-dire de différents modèles statistiques).

Enfin, il est utile d'être explicite sur le rôle du modèle statistique car les probabilités sont déterminées par le modèle statistique ainsi que par les données. Si vous choisissez un modèle différent, vous obtenez une fonction de vraisemblance différente et vous pouvez obtenir une constante de proportionnalité inconnue différente.

Ainsi, pour répondre à la question initiale, les probabilités ne sont en aucun cas une probabilité. Ils n'obéissent pas aux axiomes de probabilité de Kolmogorov, et ils jouent un rôle différent dans le soutien statistique de l'inférence des rôles joués par les différents types de probabilité.

Fisher (1922) Sur les fondements mathématiques de la statistique http://rsta.royalsocietypublishing.org/content/222/594-604/309

— Michael Lew
source

1

La première ligne de votre message résume ma frustration à ce sujet. En tout cas, quelques questions basées sur votre message, monsieur: 1) La formule bayésienne est souvent écrite comme

, où (on nous dit) que

est une «vraisemblance», et que

est un «a priori». Si la probabilité n'est pas une probabilité, cette affirmation est-elle fausse? 2) Ma motivation pour la question se situe dans le contexte de la dérivation d'un estimateur du maximum de vraisemblance, qui lie inévitablement une probabilité à une probabilité (apparemment) concrète (conditionnelle). Compte tenu de ces deux exemples, comment les concilier alors? Merci.

P (a | b) = \frac{P (b | a) P (a)}{P (b)}

$P(a|b) = \frac{P(b|a)P(a)}{P(b)}$

P (b | a)

$P(b|a)$

P (a)

$P(a)$

— Creatron

@Creatron 1. Non, la déclaration n'est pas nécessairement fausse. La fonction de vraisemblance est la façon dont les éléments de preuve entrent dans le calcul, et leur combinaison avec une distribution de probabilité donne une distribution de probabilité. Dans ce contexte, la constante de proportionnalité inconnue n'est pas un problème car après que le produit de la fonction de vraisemblance et de la distribution de probabilité antérieure est arbitrairement mis à l'échelle afin qu'il ait l'intégrale d'unité correcte (ou la somme).

— Michael Lew

2. Dans le contexte de la recherche d'une estimation du maximum de vraisemblance, peu importe que vous utilisiez une probabilité conditionnelle ou une vraisemblance, car elles seront proportionnelles sur toute la plage de valeurs des paramètres.

— Michael Lew

1

Pouvons-nous alors dire que si

est techniquement incorrect,

est techniquement et formellement correct? Est-ce tout ce qu'il y a à faire?

L (θ | x) = P (x | θ)

$L(\theta|x) = P(x|\theta)$

L (θ | x) \propto P (x | θ)

$L(\theta|x) \propto P(x|\theta)$

— Creatron

Merci Micheal Lew, votre message a vraiment aidé dans ma compréhension de ce problème, très apprécié.

— Creatron

7

Wikipedia aurait dû dire que n'est pas une probabilité conditionnelle de dans un ensemble spécifié, ni une densité de probabilité de . En effet, s'il existe une infinité de valeurs de dans l'espace des paramètres, vous pouvez avoir par exemple en ayant quelle que soit la valeur de , et s'il existe un standard mesurer sur l'espace des paramètres $L(\theta)$ $\theta$ $\theta$ $\theta$

\sum_{θ} L (θ) = \infty,

$\sum_\theta L(\theta) = \infty,$

L (θ) = 1

$L(\theta)=1$

θ

$\theta$

d θ

$d\theta$

Θ

$\Theta$ , alors de la même manière on peut avoir

Un point essentiel que l'article devrait souligner est que

est la fonction

\int_{Θ} L (θ) ré θ = \infty .

$\int_\Theta L(\theta)\,d\theta =\infty.$

L

$L$

θ \mapsto P (X ∣ θ) et pas X \mapsto P (X ∣ θ) .

$\theta \mapsto P(x\mid\theta) \text{ and NOT } x\mapsto P(x\mid\theta).$

— Michael Hardy
source

2

+1 et merci pour la modification de ma réponse; J'ai oublié que ça \midexiste.

— amibe dit Réintégrer Monica

@amoeba: Heureux de vous aider.

$\qquad$

— Michael Hardy

3

"Je lis ceci:" La probabilité de paramètres égalant thêta, étant donné les données X = x, (le côté gauche), est égale à la probabilité que les données X soient égales à x, étant donné que les paramètres sont égaux à thêta ". (Gras est à moi pour souligner)."

$P(x|\theta)$ $\mathcal{L}(\theta|x)$

$\theta$ $\theta=\theta$ $\theta$

— Alex R.
source

P (a | b)

$P(a|b)$

L (θ | x) = P (X = x; θ)

$L(\theta|x) = P(X=x; \theta)$

P (a | b) = \frac{P (b | a) P (a)}{P (b)}

$P(a|b) = \frac{P(b|a) \ P(a)}{P(b)}$

P (b | a)

$P(b|a)$

L (θ | x) := P (x | θ)

$L(\theta|x):=P(x|\theta)$

θ

$\theta$

x

$x$

L

$L$

L

$L$

θ

$\theta$

L (θ | x)

$L(\theta|x)$

P (x | θ)

$P(x|\theta)$

Cela me semble plus logique maintenant. Merci pour votre aide initiale, @Alex.

— Creatron