Quelle est la raison pour laquelle une fonction de vraisemblance n'est pas un pdf?

59

Quelle est la raison pour laquelle une fonction de vraisemblance n'est pas un pdf (fonction de densité de probabilité)?

likelihood pdf

— John Doe
source

6

La fonction de vraisemblance est une fonction du paramètre inconnu (conditionné par les données). En tant que tel, il n'a généralement pas d'aire 1 (c'est-à-dire que l'intégrale de toutes les valeurs possibles de n'est pas 1) et n'est donc par définition pas un pdf.

θ

$\theta$

θ

$\theta$

— mardi

4

La même question sur MO 2 ans auparavant: mathoverflow.net/questions/10971/…

— Douglas Zare

3

Référence intéressante, @ Douglas. Les réponses sont plutôt insatisfaisantes, à mon humble avis. Ce qui est accepté suppose des choses qui ne sont tout simplement pas vraies (" pdfs: non !) Et et : les autres ne s'attaquent pas vraiment aux problèmes statistiques.

p (X | m)

$p(X|m)$

p (m | X)

$p(m|X)$

— whuber

2

+1 whuber. C’est étonnant qu’il y ait de si mauvaises réponses dans le site mathoverflow en dépit de son niveau mathématique si élevé!

— Stéphane Laurent

1

@ Stéphane: C'est vrai, mais les statisticiens et même les probabilistes semblent être assez rares sur MO, à quelques exceptions près. Cette question remonte assez tôt dans l'existence de MO, lorsque les questions généralement recevables et la qualité des réponses étaient très différentes.

— cardinal

62

Nous allons commencer avec deux définitions:

Une fonction de densité de probabilité (pdf) est une fonction non négative qui intègre à . $1$
La vraisemblance est définie comme la densité globale des données observées en fonction du paramètre. Mais, comme le souligne la référence à Lehmann faite par @whuber dans un commentaire ci-dessous, la fonction de vraisemblance dépend uniquement du paramètre, les données étant maintenues comme constantes. Donc, le fait qu'il s'agisse d'une densité en fonction des données est sans importance.

Par conséquent, la fonction de vraisemblance n'est pas un pdf car son intégrale par rapport au paramètre n'est pas nécessairement égale à 1 (et peut même ne pas être intégrable du tout, en fait, comme l'a souligné un autre commentaire de @whuber).

Pour voir cela, nous allons utiliser un exemple simple. Supposons que vous ayez une seule observation, , à partir d’une distribution de . Alors la fonction de vraisemblance est $x$ ${\rm Bernoulli}(\theta)$

L (θ) = θ^{x} (1 - θ)^{1 - x}

$L(\theta) = \theta^{x} (1 - \theta)^{1-x}$

C’est un fait que . Plus précisément, si , alors , donc $\int_{0}^{1} L(\theta) d \theta = 1/2$ $x = 1$ $L(\theta) = \theta$

\int_{0}^{1} L (θ) d θ = \int_{0}^{1} θ d θ = 1 / 2

$\int_{0}^{1} L(\theta) d \theta = \int_{0}^{1} \theta \ d \theta = 1/2$

et un calcul similaire s'applique lorsque . Par conséquent, ne peut pas être une fonction de densité. $x = 0$ $L(\theta)$

Peut-être encore plus important que cet exemple technique montrant pourquoi la probabilité n'est pas une densité de probabilité est de souligner que la probabilité n'est pas la probabilité que la valeur du paramètre soit correcte ou quelque chose comme ça - c'est la probabilité (la densité) des données compte tenu de la valeur du paramètre , ce qui est une chose complètement différente. Par conséquent, il ne faut pas s’attendre à ce que la fonction de vraisemblance se comporte comme une densité de probabilité.

— Macro
source

12

+1 Un point subtil est que même l'apparition du " " dans l'intégrale ne fait pas partie de la fonction de vraisemblance; ça vient de nulle part. Parmi les nombreuses façons de voir cela, considérez qu'un reparamétrage ne change rien d'essentiel à la vraisemblance - il s'agit simplement d'un changement de nom du paramètre - mais modifiera l'intégrale. Par exemple, si nous paramétrions les distributions de Bernoulli avec le log odds l'intégrale ne convergerait même pas.

d θ

$d\theta$

ψ = \log (θ / (1 - θ))

$\psi=\log(\theta/(1-\theta))$

— whuber

3

C'est une façon de le dire: les MLE sont invariants lors de transformations monotones mais les densités de probabilité ne le sont pas, QED! C'était exactement l'argument de Fisher, que j'ai esquissé dans un commentaire à la réponse de @Michael Chernick.

— whuber

4

+1 pour le commentaire de whuber. Le " " n'a même pas de sens en général car il n'y a même pas de champ dans l'espace des paramètres!

d θ

$d\theta$

σ

$\sigma$

— Stéphane Laurent

1

@PatrickCaldon La seule contrainte de continuité concerne la cdf, qui requiert une continuité parfaite. Vous en avez besoin pour que votre probabilité ne passe pas de définie à non définie et (éventuellement) de nouveau, ce qui serait étrange. Je ne suis pas sûr à 100% mais je pense que tant que vous avez votre cdf, et donc une probabilité, vous n'avez même pas besoin de pouvoir résoudre . Si vous le pouvez, cela garantit simplement que le VR est continu.

\int_{D} f

$\int_D f$

— Joey

1

(+1) Permettez-moi d'être le premier à vous féliciter d'avoir atteint le taux de représentation de 10 000 $! Bonne réponse; J'aime l'exemple que vous donnez, en particulier. À votre santé. :)

— cardinal

2

D'accord, mais la fonction de vraisemblance est la densité de probabilité conjointe pour les données observées étant donné le paramètre . En tant que tel, il peut être normalisé pour former une fonction de densité de probabilité. Donc, c'est essentiellement comme un pdf. $θ$

— Michael Chernick
source

3

Donc, vous venez de souligner que la probabilité est intégrable par rapport au paramètre (est-ce toujours vrai?). Je suppose que vous faites peut-être allusion à la relation de vraisemblance avec la distribution postérieure lorsqu’on utilise un a priori plat, mais sans plus d'explications, cette réponse reste mystérieuse pour moi.

— Macro

6

Intégrer à l'unité est à côté du point. Fisher, dans un document 1922 sur les fondements mathématiques de la statistique théorique, observé que , de fait habituellement la probabilité peut être « normalisée » à intégrer à l' unité à la multiplication par une fonction appropriée de telle sorte que . Ce à quoi il s'est opposé, c'est l' arbitraire : beaucoup de fonctionnent. "... le mot probabilité est utilisé à tort dans une telle connexion: la probabilité est un rapport de fréquences, et en ce qui concerne les fréquences de telles valeurs, nous ne pouvons rien savoir du tout."

L (θ)

$L(\theta)$

p (θ)

$p(\theta)$

\int L (θ) p (θ) d θ = 1

$\int L(\theta)p(\theta)d\theta=1$

p

$p$

— whuber

1

@ Néstor (et Michael) - il semble que Whuber et moi avons interprété cette question comme une question de savoir pourquoi la vraisemblance n'est pas une fonction de densité, en fonction de $\theta$ sorte qu'il apparaît que nous répondons à des questions différentes. Bien entendu, la vraisemblance est la fonction de densité des observations (compte tenu de la valeur du paramètre) - c'est ainsi que cela est défini.

— Macro

2

Michael, je pense que nous l'avons interprété de cette façon parce que la probabilité est fonction de donc, s'il s'agissait d'une densité, alors ce serait une densité dans . Je peux imaginer l’interpréter comme vous l’avez fait, mais cette possibilité ne m’est apparue que après avoir lu le commentaire de Nestor.

θ

$\theta$

θ

$\theta$

— Macro

4

Je trouve que l'ambiguïté est créée par cette réponse mais n'est pas présente dans la question. Comme le souligne @ Macro, la vraisemblance dépend uniquement du paramètre. ( Par exemple , "La densité , considérée pour fixe en fonction de , est appelée fonction de vraisemblance : EL Lehmann, Théorie de l’estimation ponctuelle , section 6.2 .) Ainsi, la question est claire et répondre que la "probabilité est la densité de probabilité conjointe" ne clarifie pas mais confond la question.

f (x_{1}, θ) \dots f (x_{n}, θ)

$f(x_1,\theta)\cdots f(x_n,\theta)$

x

$x$

θ

$\theta$

— whuber

1

Je ne suis pas un statisticien, mais d'après ce que je comprends, même si la fonction de vraisemblance n'est pas un PDF en ce qui concerne le ou les paramètres, elle est directement liée à ce PDF par la règle de Bayes. La fonction de vraisemblance, P (X | thêta) et la distribution postérieure, f (thêta | X), sont étroitement liées; pas "une chose complètement différente" du tout.

— Santayana
source

1

Bienvenue sur notre site! Vous pourriez trouver du matériel intéressant dans les commentaires aux autres réponses de ce fil. Certains d'entre eux expliquent pourquoi la règle de Bayes ne s'applique pas à moins d'introduire explicitement un mécanisme mathématique supplémentaire (tel qu'un champ Sigma pour le paramètre).

— whuber

Merci @ Whuber. Je n'ai pas remarqué de références à la règle de Bayes ailleurs dans le fil de discussion, mais je suppose qu'il y a des allusions dans les commentaires, en supposant qu'une personne parle suffisamment la probabilité au niveau de la maîtrise pour pouvoir les comprendre (ce que je ne suis pas). Ne croyez-vous pas que placer la fonction de vraisemblance dans le contexte de la règle de Bayes apporte une intuition utile à la question du PO?

— Santayana

Appliquer la règle de Bayes n’est pas possible sans supposer une distribution de probabilité pour : c’est la distinction entre cette distribution et la distribution des données en fonction de , qui fait presque tout dans ce fil. En supposant implicitement qu'il existe ou puisse exister une telle distribution est à l'origine de la confusion évoquée dans le fil de commentaire de la réponse de Michael Chernick. Je conviens donc qu'une discussion claire et attentive sur ce point pourrait être utile, mais tout ce qui est inférieur à cette situation risque de créer une plus grande confusion.

θ

$\theta$

θ

$\theta$

— whuber

Mes excuses, à première vue, ce fil de discussion semblait n'être rien de plus qu'un malentendu, mais je vois maintenant les commentaires pertinents auxquels vous faites référence, en particulier votre citation de Fisher. Mais cela ne découle-t-il pas d'un débat bayésien contre Frequentist? N'y a-t-il pas un grand nombre de praticiens de l'inférence bayésienne qui plaideraient en faveur d'une distribution de probabilité pour thêta? (si vous êtes d'accord avec eux, c'est autre chose ...)

— santayana

1

Oui, le débat B contre F se cache ici. Une frequentist réfléchie se fera un plaisir d' utiliser la règle de Bayes lorsqu'il existe une base pour adopter une distribution préalable , mais les parties de la société bayésiens en niant que nous devons adopter une avant. Nous pouvons nous inspirer de la formulation de cette question. Si au lieu de cela il avait demandé "pourquoi peut-on traiter la fonction de vraisemblance comme un PDF (pour les paramètres)", cela aurait orienté cette conversation dans une perspective bayésienne. Mais en posant cette question par la négative, le PO nous demandait d’examiner la probabilité d’un point de vue fréquentiste.

θ

$\theta$

— whuber

1

La vraisemblance est définie par , où si f (x; θ) est une fonction de masse de probabilité , alors la probabilité est toujours inférieure à un, mais si f (x; θ) est une fonction de densité de probabilité, la probabilité peut être supérieure à un, car les densités peuvent être supérieures à un. $\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta)$

Normalement, les échantillons sont traités dans iid, puis:
$\mathcal{L}(\theta; x_1,...,x_n) = f(x_1,...,x_n; \theta) = \prod_{j} f(x_j; \theta)$

Voyons sa forme originale:

Selon l'inférence bayésienne, est valide, c'est-à-dire . Notez que l'estimation du maximum de vraisemblance considère le rapport entre la preuve et le passé comme une constante (voir les réponses à cette question ), ce qui omet les croyances antérieures. La probabilité a une corrélation positive avec la postérieure qui est basée sur les paramètres estimés. peut-être un pdf mais ne l’est pas, car n’est qu’une partie de qui est intraitable. $f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ $\hat{\mathcal{L}} = \frac{posterior * evidence}{prior}$ $\hat{\mathcal{L}}$ $\mathcal{L}$ $\mathcal{L}$ $\hat{\mathcal{L}}$

Par exemple, je ne connais pas la variance moyenne et standard d'une distribution gaussienne et je souhaite les obtenir en les entraînant à l'aide de nombreux échantillons de cette distribution. J'initialise d'abord la variance moyenne et la variance standard de manière aléatoire (ce qui définit une distribution gaussienne), puis je prélève un échantillon et je m'intègre dans la distribution estimée afin d'obtenir une probabilité à partir de la distribution estimée. Ensuite, je continue à mettre l'échantillon et à obtenir de nombreuses probabilités, puis je multiplie ces probabilités pour obtenir un score. Ce genre de score est la probabilité. À peine peut-il s'agir d'une probabilité d'un certain pdf.

— Lerner Zhang
source