Essais de Bernoulli corrélés, distribution multivariée de Bernoulli?


15

Je simplifie une question de recherche que j'ai au travail. Imaginez que j'ai 5 pièces et appelons les têtes un succès. Ce sont des pièces TRÈS biaisées avec une probabilité de succès p = 0,1. Maintenant, si les pièces étaient indépendantes, puis obtenir la probabilité d'au moins 1 tête ou plus est très simple, 1-(1-1/dix)5 . Dans mon scénario, mes essais de Bernoulli (lancers de pièces) ne sont pas indépendants. Les seules informations auxquelles j'ai accès sont la probabilité de succès (chacun est p = 0,1) et les corrélations théoriques de Pearson entre les variables binaires.

Existe-t-il un moyen de calculer la probabilité d'un succès ou plus uniquement avec ces informations? J'essaie d'éviter une approche basée sur la simulation car ces résultats théoriques seront utilisés pour guider la précision d'une étude de simulation. J'ai étudié la distribution multivariée de Bernoulli, mais je ne pense pas pouvoir la spécifier entièrement uniquement avec des corrélations et des probabilités marginales de succès. Un de mes amis a recommandé de construire une copule gaussienne avec des marginaux de bernoulli (en utilisant le package R copula), puis d'utiliser la pMvdc()fonction sur un grand échantillon pour obtenir la probabilité que je veux, mais je ne sais pas exactement comment m'y prendre.


La distribution multivariée de Bernoulli a été décrite ici: arxiv.org/abs/1206.1874
Tim

Y a-t-il un élément temporel entre les procès ou sont-ils tous en parallèle? S'il est antérieur, pouvez-vous faire une hypothèse simplificatrice selon laquelle ne dépend que de t r i a l i - n , où n vous donne l'ordre de votre modèle de Markov? trjeuneljetrjeunelje-nn
Zhubarb

Réponses:


17

Non, cela est impossible lorsque vous avez trois pièces ou plus.

Le cas de deux pièces

Voyons d'abord pourquoi cela fonctionne pour deux pièces, car cela donne une idée de ce qui tombe en panne dans le cas de plusieurs pièces.

Soit et Y les variables distribuées de Bernoulli correspondant aux deux cas, X B e r ( p ) , Y B e r ( q ) . Rappelons d'abord que la corrélation de X et Y estXOuiXBer(p)OuiBer(q)XOui

corr(X,Oui)=E[XOui]-E[X]E[Oui]Vuner(X)Vuner(Oui),

et puisque vous connaissez les marginaux, vous connaissez , E [ Y ] , V a r ( X ) et V a r ( Y ) , donc en connaissant la corrélation, vous connaissez également E [ X Y ] . Maintenant, X Y = 1 si et seulement si X = 1 et Y = 1 , donc E [ X Y ] = P (E[X]E[Oui]Vuner(X)Vuner(Oui)E[XOui]XOui=1X=1Oui=1

E[XOui]=P(X=1,Oui=1).

En connaissant les marginaux, vous connaissez , et q = P ( X = 0 , Y = 1 ) + P ( X = 1 , Y = 1 ) . Puisque nous venons de découvrir que vous connaissez P ( X = 1 , Yp=P(X=1,Oui=0)+P(X=1,Oui=1)q=P(X=0,Oui=1)+P(X=1,Oui=1) , cela signifie que vous connaissez également P ( X = 1 , Y = 0 ) et P ( X = 0 , Y = 0 ) , mais maintenant vous avez terminé, car la probabilité que vous recherchez estP(X=1,Oui=1)P(X=1,Oui=0)P(X=0,Oui=0)

P(X=1,Oui=0)+P(X=0,Oui=1)+P(X=1,Oui=1).

Maintenant, je trouve personnellement tout cela plus facile à voir avec une photo. Soit . Ensuite, nous pouvons imaginer les diverses probabilités comme formant un carré:Pjej=P(X=je,Oui=j)

Ici, nous avons vu que connaître les corrélations signifiait que vous pouviez déduire , marqué en rouge, et que connaissant les marginaux, vous connaissiez la somme pour chaque bord (dont l'un est indiqué par un rectangle bleu).P11

Le cas de trois pièces

Cela ne se fera pas aussi facilement pour trois pièces; intuitivement, il n'est pas difficile de comprendre pourquoi: en connaissant les marginaux et la corrélation, vous connaissez un total de paramètres, mais la distribution conjointe a 2 3 = 8 résultats, mais en connaissant les probabilités pour 7 d'entre eux, vous pouvez comprendre le dernier; maintenant, 7 > 6 , il semble donc raisonnable que l'on puisse concocter deux distributions conjointes différentes dont les marginaux et les corrélations sont les mêmes, et que l'on puisse permuter les probabilités jusqu'à ce que celles que vous recherchez diffèrent.6=3+323=877>6

Soit , Y et Z les trois variables, et queXYZ

Pijk=P(X=i,Y=j,Z=k).

Dans ce cas, l'image ci-dessus devient la suivante:

entrez la description de l'image ici

Les dimensions ont été heurtées par une: le sommet rouge est devenu plusieurs bords colorés, et le bord couvert par un rectangle bleu est devenu une face entière. Ici, le plan bleu indique qu'en connaissant le marginal, vous connaissez la somme des probabilités à l'intérieur; pour celui de l'image,

P(X=0)=P000+P010+P001+P011,

corr(X,Y)E[XY]

E[XY]=P(X=1,Y=1)=P110+P111.

Donc, cela met quelques limitations sur les distributions conjointes possibles, mais maintenant nous avons réduit l'exercice à l'exercice combinatoire consistant à mettre des nombres sur les sommets d'un cube. Sans plus tarder, fournissons deux distributions conjointes dont les marginaux et les corrélations sont les mêmes:

entrez la description de l'image ici

1001/2Ber(1/2)

1P0001P000

P111

Ber(1/10)

Quatre pièces ou plus

Enfin, lorsque nous avons plus de trois pièces, il n'est pas surprenant que nous puissions préparer des exemples qui échouent, car nous avons maintenant un écart encore plus grand entre le nombre de paramètres requis pour décrire la distribution conjointe et ceux qui nous sont fournis par les marginaux et corrélations.

Concrètement, pour tout nombre de pièces supérieur à trois, vous pouvez simplement considérer les exemples dont les trois premières pièces se comportent comme dans les deux exemples ci-dessus et pour lesquels les résultats des deux dernières pièces sont indépendants de toutes les autres pièces.


3

Les essais de Bernoulli corrélés conduisent à une distribution bêta-binomiale pour les résultats comptés. Il devrait être possible de paramétrer cette distribution pour donner une valeur de corrélation spécifiée, puis de calculer la probabilité souhaitée.


Un bêta-binôme n'est-il pas simplement un binôme dont le paramètre de probabilité de succès est une variable aléatoire suivant un bêta? Comment cela s'applique-t-il au problème du PO?
AG

1
Oui, c'est une caractérisation de la distribution. C'est aussi l'une des solutions des essais de Bernoulli corrélés (voir par exemple Hisakado et al 2006 )
Reinstate Monica

Donc c'est! A voté.
AG

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.