Comment les bayésiens comparent-ils les distributions?

Donc, je pense que j'ai une bonne compréhension des bases de la probabilité fréquentiste et de l'analyse statistique (et à quel point elle peut être utilisée). Dans un monde fréquentiste, il est logique de poser une question telle que "cette distribution est-elle différente de cette distribution", car les distributions sont supposées être réelles, objectives et immuables (pour une situation donnée, au moins), et ainsi nous pouvons comprendre quelle est la probabilité qu'un échantillon soit tiré d'une distribution en forme d'un autre échantillon.

Dans la vision du monde bayésienne, nous ne nous soucions que de ce que nous attendons, compte tenu de nos expériences passées (je suis encore un peu vague sur cette partie, mais je comprends le concept de mise à jour bayésienne). Si tel est le cas, comment un bayésien peut-il dire "cet ensemble de données est différent de cet ensemble de données"?

Aux fins de cette question, je ne me soucie pas de la signification statistique, ou similaire, de la façon de quantifier la différence. Je m'intéresse également aux distributions paramétriques et non paramétriques.

distributions bayesian

— rien101
source

Pourriez-vous préciser ce que vous entendez par "cet ensemble de données est différent de cet ensemble de données?" Comme dans, faites-vous référence à la comparaison de deux ou plusieurs groupes, tels que les revenus des hommes par rapport aux revenus des femmes? Ou peut-être comment un bayésien compare-t-il deux échantillons de revenus sans connaître le sexe?

— ramhiser

@ JohnA.Ramey: Quelle est la différence? Une fois que ce ne sont que des chiffres, "masculin" et "féminin" ne sont-ils pas simplement des étiquettes pour les échantillons?

— naught101

Réponses:

Réfléchissez à votre déclaration en tant que Frequentist et rendez-la plus précise en premier. Un Frequentist ne pouvait pas dire que "l'ensemble de données A est différent de l'ensemble de données B", sans autre précision.

Tout d'abord, vous devez indiquer ce que vous entendez par «différent». Peut-être que vous voulez dire "avoir des valeurs moyennes différentes". Là encore, vous pourriez vouloir dire «avoir des écarts différents». Ou peut-être autre chose?

Ensuite, vous devez indiquer le type de test que vous utiliserez, qui dépend de ce que vous pensez être des hypothèses valides sur les données. Supposez-vous que les ensembles de données sont tous deux normalement distribués sur certains moyens? Ou pensez-vous qu'ils sont tous deux distribués en version bêta? Ou autre chose?

Maintenant, pouvez-vous voir que la deuxième décision ressemble beaucoup aux précédents dans les statistiques bayésiennes? Ce n'est pas seulement "mon expérience passée", mais plutôt ce que je crois, et ce que mes collègues vont croire, sont des hypothèses raisonnables sur mes données. (Et les Bayésiens peuvent utiliser des a priori uniformes, ce qui pousse les choses vers les calculs fréquentistes.)

EDIT: En réponse à votre commentaire: la prochaine étape est contenue dans la première décision que j'ai mentionnée. Si vous voulez décider si les moyennes de deux groupes sont différentes, vous devriez regarder la distribution de la différence des moyennes des deux groupes pour voir si cette distribution contient ou non zéro, à un certain niveau de confiance. Exactement à quel point près de zéro vous comptez pour zéro et exactement quelle partie de la distribution (postérieure) que vous utilisez est déterminée par vous et le niveau de confiance que vous désirez.

Une discussion de ces idées peut être trouvée dans un article de Kruschke , qui a également écrit un livre très lisible Doing Bayesian Data Analysis , qui couvre un exemple aux pages 307-309, "Are Different Groups Equal?". (Deuxième édition: p. 468-472.) Il a également un blog sur le sujet , avec quelques questions et réponses.

NOUVELLE MODIFICATION: Votre description du processus bayésien n'est pas non plus tout à fait correcte. Les Bayésiens ne se soucient que de ce que les données nous disent, à la lumière de ce que nous savions indépendamment des données. (Comme Kruschke le fait remarquer, le prior ne se produit pas nécessairement avant les données. C'est ce que la phrase implique, mais c'est vraiment juste notre connaissance en excluant certaines des données.) Ce que nous savions indépendamment d'un ensemble particulier de données peut être vague ou spécifique et peut être basé sur un consensus, un modèle du processus de génération de données sous-jacent, ou peut simplement être le résultat d'une autre expérience (pas nécessairement antérieure).

— Wayne
source

Oui, d'accord, les fréquentistes supposent une distribution, et c'est subjectif. Mais alors, ils peuvent simplement mesurer les paramètres de chaque échantillon, avec erreur, et dire "ok, ce sont les paramètres de la population réelle de chaque échantillon, et maintenant quelle est la probabilité que la différence soit juste due à une erreur d'échantillonnage". Ma question porte sur l'étape après votre réponse - comment les bayésiens infèrent-ils les différences entre les échantillons (supposons que les échantillons proviennent du même type de distribution, paramétrique ou non).

— naught101

@ naught101: Veuillez voir ma modification.

— Wayne

@Wayne le document que vous avez lié est excellent. Merci pour le partage

— Cam.Davidson.Pilon

@ naught101: J'ai mis à jour le lien du blog. Il a évidemment conservé les anciennes versions de l'article et chaque lien vers une version plus récente, et celle à laquelle j'ai lié en premier est trois versions obsolètes.

— Wayne

C'est une méthode assez cool, et elle montre clairement comment l'inférence bayésienne pourrait fonctionner (en traitant les paramètres de distribution comme source d'incertitude). Dommage que ce soit si intensif en calcul. De plus, l'utilisation d'IC à 95% semble un peu trop comme définir un niveau de signification, mais je ne vois pas s'il existe un moyen réel d'obtenir un équivalent à déclarer d'une valeur p (peut-être la somme des probabilités de valeurs plus extrême que 0 de la moyenne, pour la différence de moyenne?).

— naught101

ce document pourrait être intéressant: http://arxiv.org/pdf/0906.4032v1.pdf

Il donne un bon résumé de certaines approches fréquentistes et bayésiennes du problème à deux échantillons, et discute les cas paramétriques et non paramétriques.

Cela pourrait ajouter quelque chose aux autres réponses pour donner un exemple simple. Supposons que vous ayez deux ensembles de données et où chaque et chaque est soit un $\mathbf{x}$ $\mathbf{y}$ $x_i$ $y_j$ $0$ soit un . Vous supposez un modèle de Bernoulli iid dans les deux cas, donc chaque et chaque . Votre scénario de test d' hypothèses dans les deux fréquentistes et les paramètres de Bayes peuvent être: $1$ $x_i\sim Bern(p)$ $y_i\sim Bern(q)$

$\mathcal{H}_0: \: \: p=q$

pas nécessairement égal. $\mathcal{H}_1: \: \: p,q$

Les probabilités pour les données dans chaque cas sont:

Sous : $\mathcal{H}_0$ $L_0(p) = f(\mathbf{x},\mathbf{y};p) = \prod_i p^i (1-p)^{1-i} \prod_j p^j(1-p)^{1-j}$

$\mathcal{H}_1$ $L_1(p,q) = f(\mathbf{x},\mathbf{y};p,q) = \prod_i p^i (1-p)^{1-i} \prod_j q^j(1-q)^{1-j}$

$\mathcal{H}_0 \:\: q=p$

$W = -2\log\left\{ \frac{L_0(p_{max})}{L_1(p_{max},q_{max})}\right\},$

$p_{max},q_{max}$ $p$ $q$ $p_{max}$ $p_{max}$ $W$ $\chi^2_1$ $\mathcal{H}_0$

$p\sim \pi_0$ $\mathcal{H}_0$ $p,q\sim \pi_1$ $\mathcal{H}_1$

$BF = \frac{ f(\mathbf{x},\mathbf{y}|\mathcal{H}_0) }{f(\mathbf{x},\mathbf{y}|\mathcal{H}_1)} = \frac{ \int_0^1 L_0(p)\pi_0(p)dp}{\int_0^1 \int_0^1 L_1(p,q)\pi_1(p,q)dpdq}$ .

The Bayes factor can be combined with some prior beliefs on the probability of $\mathcal{H}_0$ or $\mathcal{H}_1$ being true, to give the probability of $\mathcal{H}_0$ versus $\mathcal{H}_1$ after seeing the data. If we assume apriori that each hypothesis is equally likely, so $p(\mathcal{H}_0)=p(\mathcal{H}_1) = 1/2$ , then this gives:

$\frac{p(\mathcal{H}_0|\mathbf{x},\mathbf{y})}{p(\mathcal{H}_1|\mathbf{x},\mathbf{y})} = BF \times \frac{p(\mathcal{H}_0)}{p(\mathcal{H}_1)} = BF \times \frac{1/2}{1/2} = BF.$

Intuitively, if this ratio is $>1$ , then the posterior probability of $\mathcal{H}_0$ is larger than $\mathcal{H}_1$ , so you would say that $\mathcal{H}_0$ has a higher probability of being true under these assumptions for the prior and model.

One nice thing about the Bayes factor is how it automatically penalises more complex models (such as $\mathcal{H}_1$ here). A nice paper offering some more intuition is here: http://quasar.as.utexas.edu/papers/ockham.pdf.

Hope that helps along with the other answers already posted.

— Sam Livingstone
source

Given data, how strongly do we believe that 2 groups do not come from the same population (H_1: they do not come from the same population vs H_0: they come from the same population). This can be done with a Bayesian t-test.

Complexity is used to figure out how much the prior is overlapping with one hypothesis. Fit is used to figure out how much the posterior is overlapping with one hypothesis. Combined you can compare the hypotheses and express your posterior belief in whether or not they come from the same population.

— PascalVKooten
source