Comment choisir a priori dans l'estimation des paramètres bayésiens


16

Je connais 3 méthodes pour faire des estimations de paramètres, ML, MAP et Bayes. Et pour l'approche MAP et Bayes, nous devons choisir des a priori pour les paramètres, non?

Disons que j'ai ce modèle , dans lequel α , β sont des paramètres, afin de faire l'estimation en utilisant MAP ou Bayes, j'ai lu dans le livre que nous ferions mieux de choisir un conjugué avant p ( α , β ) , qui est une probabilité conjointe de α , β , non?p(x|α,β)α,βp(α,β)α,β

J'ai 2 questions:

  1. Avons-nous d'autres choix pour choisir le prieur autre que celui conjugué?

  2. Pouvons-nous choisir des prieurs pour et β respectivement comme p ( α ) et p ( β ) , à part les mettre ensemble dans un joint?αβp(α)p(β)


1
Selon le logiciel que vous utiliserez, les priors n'ont certainement pas à être conjugués à la fonction de vraisemblance ... tout d'abord, vous devez vous assurer que vos priors représentent vos croyances antérieures sur la distribution des paramètres
Patrick Coulombe

Je pourrais donc choisir des prieurs respectivement pour les paramètres, non? En fait, j'essaie juste de comprendre la régression linéaire baysienne, aucun logiciel spécifique n'est pris en compte
avocat

1
Cherchez l'élicitation préalable , par exemple ici
Scortchi - Réinstallez Monica

Réponses:


17

Comme indiqué dans le commentaire, la distribution antérieure représente les croyances antérieures concernant la distribution des paramètres.

Lorsque des croyances antérieures sont réellement disponibles, vous pouvez:

  • convertissez-les en termes de moments (par exemple, moyenne et variance) pour ajuster une distribution commune à ces moments (par exemple gaussien si votre paramètre se situe sur la ligne réelle, Gamma s'il se situe sur ).R+
  • utiliser votre compréhension intuitive de ces croyances pour proposer une distribution antérieure donnée et vérifier si elle correspond vraiment à votre objectif et qu'elle n'est pas sensible à des choix arbitraires (effectuer une analyse de robustesse ou de sensibilité)

Lorsqu'aucune croyance préalable explicite n'est disponible, vous pouvez:

p(une,b)p(une)p(b)

  • veillez à ce que votre postérieur soit intégrable presque partout (ou propre), ce qui est toujours vrai si vous utilisez un a priori intégrable (voir Est - ce que le postérieur bayésien doit être une distribution correcte? pour plus de détails),
  • ne limitez le support de votre a priori que si vous êtes très confiant sur les limites du support (évitez donc de le faire).
  • et enfin et surtout, assurez-vous (la plupart du temps expérimentalement) que votre choix de priorité signifie ce que vous voulez exprimer. À mon avis, cette tâche est parfois la plus critique. N'oubliez jamais que lorsque vous faites une inférence, un a priori ne signifie rien en soi, vous devez considérer le postérieur (qui est la combinaison du précédent et de la vraisemblance).

Merci beaucoup, pourriez-vous me recommander des tutoriels sur la façon de faire ce genre d'inférence bayésienne?
avocat

@loganecolss Je vous en prie, j'étais personnellement un peu perdu il y a quelques mois et ce post est tout simplement le résumé de mon auto-apprentissage et je suis heureux s'il peut aider quelqu'un d'autre. Concernant votre question, que voulez-vous dire par "ce genre d'inférence bayésienne"?
peuhp

1
Je suis également autodidacte sur l'apprentissage machine, je connaissais ML, mais cette approche bayésienne de l'estimation des paramètres est nouvelle pour moi, j'espère que vous pourrez me montrer du matériel pour apprendre l'estimation et l'inférence bayésienne ;-)
avocat

1
@loganecolss, Ceci est un bon résumé de l'inférence MLE, MAP et bayésienne. Et ce lien donne un bon résumé de la façon d'incorporer une inférence avant bayésienne pour une distribution binomiale.
Zhubarb

Une élaboration mineure: un bon a priori représente un ensemble cohérent de croyances sur les paramètres. Ils ne doivent pas nécessairement être vos croyances. En effet, les modèles sont souvent plus persuasifs lorsqu'ils appartiennent à d'autres.
conjugateprior

1

Il existe également des Bayes empiriques. L'idée est de régler l'avant des données:

maxp(z)p(D|z)p(z)dz

Bien que cela puisse sembler gênant au premier abord, il existe en fait des relations avec la longueur minimale de description. C'est également la manière typique d'estimer les paramètres du noyau des processus gaussiens.


0

Pour répondre directement aux deux questions ci-dessus:

  1. Vous avez d'autres choix pour choisir des antérieurs non conjugués autres que des antérieurs conjugués. Le problème est que si vous choisissez des prieurs non conjugués, vous ne pouvez pas faire d'inférence bayésienne exacte (simplement, vous ne pouvez pas dériver une forme postérieure proche). Vous devez plutôt faire une inférence approximative ou utiliser des méthodes d'échantillonnage telles que l'échantillonnage de Gibbs, l'échantillonnage de rejet, le MCMC, etc. pour vous dériver postérieurement. Le problème avec les méthodes d'échantillonnage est qu'intuitivement, c'est comme dessiner un éléphant dans l'obscurité en le touchant de manière répétitive - vous pouvez être biaisé et incomplet. La raison pour laquelle les gens choisissent un antécédent non conjugué est que, selon une certaine probabilité, l'option antérieure conjuguée est assez limitée, ou pour dire que la plupart sont non conjugués.

  2. Oui, certainement. Si α et β sont indépendants, ce qui est la condition idéaliste, vous pouvez dériver leur distribution conjointe par p (α) p (β). S'ils ne sont pas indépendants, vous devrez peut-être déterminer la probabilité conditionnelle et faire l'intégrale pour dériver la distribution conjointe.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.