Y a-t-il une différence entre fréquentiste et bayésien sur la définition de la vraisemblance?


21

Certaines sources affirment que la fonction de vraisemblance n'est pas une probabilité conditionnelle, d'autres le disent. C'est très déroutant pour moi.

Selon la plupart des sources que j'ai vues, la probabilité d'une distribution avec le paramètre , devrait être un produit de fonctions de masse de probabilité pour n échantillons de x i :θnxi

L(θ)=L(x1,x2,...,xn;θ)=i=1np(xi;θ)

Par exemple, dans la régression logistique, nous utilisons un algorithme d'optimisation pour maximiser la fonction de vraisemblance (estimation de vraisemblance maximale) afin d'obtenir les paramètres optimaux et donc le modèle LR final. Étant donné les échantillons d'apprentissage, que nous supposons indépendants les uns des autres, nous voulons maximiser le produit des probabilités (ou les fonctions de masse des probabilités conjointes). Cela me semble assez évident.n

Selon la relation entre: probabilité, probabilité conditionnelle et taux d'échec , "la probabilité n'est pas une probabilité et ce n'est pas une probabilité conditionnelle". Il a également mentionné, "la probabilité est une probabilité conditionnelle uniquement dans la compréhension bayésienne de la probabilité, c'est-à-dire si vous supposez que est une variable aléatoire."θ

J'ai lu les différentes perspectives de traitement d'un problème d'apprentissage entre fréquentiste et bayésien.

Selon une source, pour l'inférence bayésienne, nous avons a priori , vraisemblance P ( X | θ ) , et nous voulons obtenir le P postérieur ( θ | X ) , en utilisant le théorème bayésien:P(θ)P(X|θ)P(θ|X)

P(θ|X)=P(X|θ)×P(θ)P(X)

Je ne connais pas l'inférence bayésienne. Comment se fait-il que qui est la distribution des données observées conditionnelle à ses paramètres, soit aussi appelée la vraisemblance? Dans Wikipédia , il est parfois écrit L ( θ | X ) = p ( X | θ ) . Qu'est-ce que ça veut dire?P(X|θ)L(θ|X)=p(X|θ)

y a-t-il une différence entre les définitions fréquenciste et bayésienne sur la vraisemblance ??

Merci.


ÉDITER:

Il y a différentes façons d'interpréter le théorème de Bayes - interprétation bayésienne et interprétation Frequentist (Voir: Théorème de Bayes - Wikipedia ).


2
Deux propriétés clés de la vraisemblance sont que (a) elle est fonction de pour un X particulier plutôt que l'inverse, et (b) elle ne peut être connue que jusqu'à une constante positive de proportionnalité. Ce n'est pas une probabilité (conditionnelle ou autre), car elle n'a pas besoin de additionner ou d'intégrer à 1 sur tout θθX1θ
Henry

Réponses:


24

Il n'y a pas de différence dans la définition - dans les deux cas, la fonction de vraisemblance est n'importe quelle fonction du paramètre qui est proportionnelle à la densité d'échantillonnage. À strictement parler, nous n'exigeons pas que la probabilité soit égale à la densité d'échantillonnage; il doit seulement être proportionnel, ce qui permet d'éliminer les parties multiplicatives qui ne dépendent pas des paramètres.

Alors que la densité d'échantillonnage est interprétée comme une fonction des données, conditionnelle à une valeur spécifiée du paramètre, la fonction de vraisemblance est interprétée comme une fonction du paramètre pour un vecteur de données fixe. Donc, dans le cas standard des données IID, vous avez:

Lx(θ)i=1np(xi|θ).

Dans les statistiques bayésiennes, nous exprimons généralement le théorème de Bayes sous sa forme la plus simple:

π(θ|x)π(θ)Lx(θ).

Cette expression pour le théorème de Bayes souligne que ses deux éléments multilicatifs sont des fonctions du paramètre, qui est l'objet d'intérêt dans la densité postérieure. (Ce résultat de proportionnalité définit pleinement la règle, puisque le postérieur est une densité, et donc il y a une constante de multiplication unique qui le fait s'intégrer à un.) Comme vous le faites remarquer dans votre mise à jour, la philosophie bayésienne et fréquentiste a des structures d'interprétation différentes. Dans le paradigme fréquentiste, le paramètre est généralement traité comme une "constante fixe" et il n'est donc pas attribué de mesure de probabilité. Les Frequentists rejettent donc l'attribution d'une distribution antérieure ou postérieure au paramètre (pour plus de discussion sur ces différences philosophiques et interprétatives, voir par exemple O'Neill 2009 ).


14

L(θ;x)L(θ|x)θx(θ,x)xθ

Pour citer des sources plus fiables et historiques qu'une réponse antérieure sur ce forum,

"Nous pouvons discuter de la probabilité d'occurrence des quantités qui peuvent être observées ... par rapport à toute hypothèse qui pourrait être suggérée pour expliquer ces observations. Nous ne pouvons rien savoir de la probabilité d'hypothèses ... [Nous] pouvons vérifier la probabilité d'hypothèses ... par calcul à partir d'observations: ... parler de la probabilité ... d'une quantité observable n'a pas de sens. " RA Fisher, Sur `` l'erreur probable '' d'un coefficient de corrélation déduit d'un petit échantillon . Métron 1, 1921, p.25

et

"Ce que nous pouvons trouver à partir d'un échantillon est la probabilité d'une valeur particulière de r, si nous définissons la probabilité comme une quantité proportionnelle à la probabilité que, à partir d'une population ayant la valeur particulière de r, un échantillon ayant la valeur observée de r , devrait être obtenu. " RA Fisher, Sur `` l'erreur probable '' d'un coefficient de corrélation déduit d'un petit échantillon . Métron 1, 1921, p.24

qui mentionne une proportionnalité que Jeffreys (et moi) trouvons superflue:

"... vraisemblance, un terme commode introduit par le professeur RA Fisher, bien que dans son utilisation il soit parfois multiplié par un facteur constant. Il s'agit de la probabilité des observations compte tenu des informations originales et de l'hypothèse en discussion." H. Jeffreys, Théorie de la probabilité , 1939, p.28

Pour ne citer qu'une phrase de l'excellente entrée historique sur le sujet de John Aldrich (Statistical Science, 1997):

"Fisher (1921, p. 24) a reformulé ce qu'il avait écrit en 1912 sur la probabilité inverse, en distinguant les opérations mathématiques qui peuvent être effectuées sur les densités de probabilité et les probabilités: la vraisemblance n'est pas un" élément différentiel ", elle ne peut pas être intégrée . " J. Aldrich, RA Fisher et la réalisation du maximum de vraisemblance 1912 - 1922 , 1997 , p.9

xθθxθθθπ()XxL(θ|)θ(θ,x)

π(θ)×L(θ|x)
θθx
π(θ|x)π(θ)×L(θ|x)
posteriorprior×likelihood

Remarque: Je trouve la distinction faite dans l'introduction de la page Wikipedia sur les fonctions de vraisemblance entre les probabilités fréquentiste et bayésienne déroutante et inutile, ou tout simplement erronée car la grande majorité des statisticiens bayésiens actuels n'utilise pas la vraisemblance comme substitut de la probabilité postérieure. De même, la "différence" signalée dans la page Wikipédia sur le théorème de Bayes semble plus déroutante qu'autre chose, car ce théorème est une déclaration de probabilité d'un changement de conditionnement, indépendante du paradigme ou du sens d'une déclaration de probabilité. ( À mon avis , c'est plus une définition qu'un théorème!)


1

En petit additif:

Le nom «vraisemblance» est entièrement trompeur, car il existe de très nombreuses significations possibles. Non seulement celui de la «langue normale», mais aussi des statistiques. Je peux penser à au moins trois expressions différentes, mais même liées, qui sont toutes appelées vraisemblance; même dans les manuels.

Cela dit, en prenant la définition multiplicative de la vraisemblance, il n'y a rien en elle qui la transformera en une sorte de probabilité au sens de sa définition (par exemple axiomatique). C'est un nombre à valeur réelle. Vous pouvez faire beaucoup de choses pour le calculer ou le relier à une probabilité (prendre des ratios, calculer des a priori et des a posteriori, etc.) - mais en soi, cela n'a aucun sens en termes de probabilité.

La réponse a été plus ou moins obsolète par la réponse beaucoup plus informative et complète de Xi'an. Mais sur demande, quelques définitions de vraisemblance dans les manuels:

  • L(x;θ)
  • θ
  • le rapport des valeurs de vraisemblance pour différents a priori (par exemple dans une tâche de classification) ... et de plus les différentes significations que l'on peut essayer d'attribuer à l'utilisation (ab) des éléments susmentionnés.

1
Ce serait une bien meilleure réponse si vous pouviez ajouter des exemples / références car je peux penser à au moins trois expressions différentes, mais même liées qui sont toutes appelées vraisemblance; même dans les manuels .
kjetil b halvorsen
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.