Le fait est que parfois, des modèles différents (pour les mêmes données) peuvent conduire à des fonctions de vraisemblance qui diffèrent par une constante multiplicative, mais le contenu de l'information doit clairement être le même. Un exemple:
Nous modélisons expériences de Bernoulli indépendantes, conduisant à des données , chacune avec une distribution de Bernoulli avec le paramètre (probabilité) . Cela conduit à la fonction de vraisemblance
Ou nous pouvons résumer les données par la variable binomiale distribuée , qui a une distribution binomiale, conduisant à la fonction de vraisemblance
qui, en fonction du paramètre inconnu , est proportionnelle à l'ancienne fonction de vraisemblance . Les deux fonctions de vraisemblance contiennent clairement les mêmes informations et devraient conduire aux mêmes inférences!nX1,…,Xnp∏i = 1npXje( 1 - p )1 - xje
Oui= X1+ X2+ ⋯ + Xn( ny) py( 1 - p )n - y
p
Et en effet, par définition, ils sont considérés comme la même fonction de vraisemblance.
Autre point de vue: observez que lorsque les fonctions de vraisemblance sont utilisées dans le théorème de Bayes, comme cela est nécessaire pour l'analyse bayésienne, de telles constantes multiplicatives s'annulent tout simplement! ils sont donc manifestement sans rapport avec l'inférence bayésienne. De même, il s'annulera lors du calcul des rapports de vraisemblance, tels qu'ils sont utilisés dans les tests d'hypothèse optimaux (lemme de Neyman-Pearson.) Et il n'aura aucune influence sur la valeur des estimateurs du maximum de vraisemblance. Nous pouvons donc voir que dans une grande partie de l'inférence fréquentiste, il ne peut pas jouer un rôle.
Nous pouvons discuter d'un point de vue encore différent. La fonction de probabilité de Bernoulli (ci-après nous utilisons le terme "densité") ci-dessus est vraiment une densité par rapport à la mesure de comptage, c'est-à-dire la mesure sur les entiers non négatifs avec la masse un pour chaque entier non négatif. Mais nous aurions pu définir une densité par rapport à une autre mesure dominante. Dans cet exemple, cela semblera (et est) artificiel, mais dans les grands espaces (espaces fonctionnels), c'est vraiment fondamental! Utilisons à des fins d'illustration la distribution géométrique spécifique, écrite , avec , , et bientôt. Alors la densité de la distribution de Bernoulli par rapport àλλ ( 0 ) = une / deuxλ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λest donné par
ce qui signifie que
Avec cette nouvelle mesure dominante, la fonction de vraisemblance devient (avec la notation ci-dessus)
notez le facteur supplémentaire . Ainsi, lors du changement de la mesure dominante utilisée dans la définition de la fonction de vraisemblance, une nouvelle constante multiplicative apparaît, qui ne dépend pas du paramètre inconnufλ(x)=px(1−p)1−x⋅2x+1
P( X= x ) = fλ( x ) ⋅ λ ( x )
∏i = 1npXje( 1 - p )1 - xje2Xje+ 1= py( 1 - p )n - y2y+ n
2y+ np, et est clairement hors de propos. C'est une autre façon de voir comment les constantes multiplicatives doivent être sans importance. Cet argument peut être généralisé en utilisant des dérivés de Radon-Nikodym (comme l'argument ci-dessus en est un exemple.)