Quelle est la différence de sens entre la notation et qui sont couramment utilisées dans de nombreux livres et articles? P ( z | d , w )
Quelle est la différence de sens entre la notation et qui sont couramment utilisées dans de nombreux livres et articles? P ( z | d , w )
Réponses:
Je crois que l'origine de ceci est le paradigme de vraisemblance (bien que je n'aie pas vérifié l'exactitude historique réelle des éléments ci-dessous, c'est une façon raisonnable de comprendre comment cela n'a pas été le cas).
Disons que dans un paramètre de régression, vous auriez une distribution: p (Y | x, beta) Ce qui signifie: la distribution de Y si vous connaissez (conditionnellement) les valeurs x et beta.
Si vous voulez estimer les bêtas, vous voulez maximiser la probabilité: L (bêta; y, x) = p (Y | x, bêta) Essentiellement, vous regardez maintenant l'expression p (Y | x, bêta) comme une fonction des bêta, mais à part cela, il n'y a pas de différence (pour les expressions mathématiques correctes que vous pouvez correctement dériver, c'est une nécessité --- bien qu'en pratique personne ne dérange).
Ensuite, dans les paramètres bayésiens, la différence entre les paramètres et les autres variables s'estompe rapidement, alors on a commencé à utiliser les deux notations en mélange.
Donc, en substance: il n'y a pas de différence réelle: ils indiquent tous les deux la distribution conditionnelle de la chose à gauche, conditionnelle à la (aux) chose (s) à droite.
est la densité de la variable aléatoire X au point x , θ étant le paramètre de la distribution. f ( x , θ ) est la densité conjointe de X et au point ( x , θ ) et n'a de sens que si Θ est une variable aléatoire. f ( x | θ ) est la distribution conditionnelle de X étant donné Θ , et encore une fois, n'a de sens que si est une variable aléatoire. Cela deviendra beaucoup plus clair lorsque vous approfondirez le livre et examinerez l'analyse bayésienne.
est identique à , signifiant simplement que est un paramètre fixe et la fonction est une fonction de . , OTOH, est un élément d'une famille (ou ensemble) de fonctions, où les éléments sont indexés par . Une distinction subtile, peut-être, mais importante, en particulier. quand vient le temps d'estimer un paramètre inconnu sur la base de données connues ; à ce moment, varie etest fixe, ce qui donne la "fonction de vraisemblance". L'utilisation de est plus courante chez les statisticiens, tandis que parmi les mathématiciens.
Bien que cela n'ait pas toujours été ainsi, ces jours-ci est généralement utilisé lorsque d , w ne sont pas des variables aléatoires (ce qui ne veut pas dire qu'elles sont nécessairement connues). P ( z | d , w ) indique un conditionnement sur les valeurs de d , w . Le conditionnement est une opération sur des variables aléatoires et en tant que tel en utilisant cette notation lorsque d , ne sont pas des variables aléatoires est déroutant (et tragiquement courant).
Comme le souligne @Nick Sabbe, est une notation courante pour la distribution d'échantillonnage des données observées y . Certains fréquentistes utiliseront cette notation mais insisteront sur le fait que Θ n'est pas une variable aléatoire, ce qui est un abus de l'OMI. Mais ils n'y ont aucun monopole; J'ai vu des Bayésiens le faire aussi, plaçant des hyperparamètres fixes à la fin des conditions.