Pourquoi cette distribution est-elle uniforme?

Nous étudions les tests statistiques bayésiens et rencontrons un phénomène étrange (du moins pour moi).

Prenons le cas suivant: nous souhaitons mesurer quelle population, A ou B, a un taux de conversion plus élevé. Pour un contrôle d' , nous définissons , c'est-à-dire que la probabilité de conversion est égale dans les deux groupes. Nous générons des données artificielles en utilisant un modèle binomial, par exemple $p_A = p_B$

n_{A} \sim Binomial (N, p_{A})

$n_A \sim \text{Binomial}(N, p_A)$

Nous essayons ensuite d'estimer le utilisant un modèle bêta-binomial bayésien afin d'obtenir des postérieurs pour chaque taux de conversion, par exemple $p_A, p_B$

P_{A} \sim Beta (1 + n_{A}, N - n_{A} + 1)

$P_A \sim \text{Beta}(1 + n_A, N - n_A +1 )$

Notre statistique de test est calculée en calculant via monte carlo. $S = P(P_A > P_B\; |\; N, n_A, n_B)$

Ce qui m'a surpris, c'est que si , alors . Je pensais qu'il serait centré autour de 0,5 et même convergerait à 0,5 à mesure que la taille de l'échantillon, , augmente. $p_A = p_B$ $S \sim \text{Uniform(0,1)}$ $N$

Ma question est, pourquoi quand ? $S \sim \text{Uniform(0,1)}$ $p_A = p_B$

Voici du code Python à démontrer:

%pylab
from scipy.stats import beta
import numpy as np
import pylab as P

a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples)
P.show()

— Cam.Davidson.Pilon
source

Notez que ne peut pas être exactement uniforme, car il s'agit d'une variable discrète. Vous vous interrogez donc sur le comportement asymptotique. De plus, pour un petit (moins de , approximativement, avec ) la distribution n'est même pas à distance proche de l'uniforme.

S

$S$

N

$N$

100 / min (p, 1 - p)

$100/\min(p,1-p)$

p = p_{A} = p_{B}

$p=p_A=p_B$

— whuber

@whuber S n'est pas discret, c'est une probabilité qui peut se situer entre 0 et 1. Aussi, même pour un N faible, j'observe un comportement uniforme.

— Cam.Davidson.Pilon

Je dois donc mal comprendre votre configuration, alors. Pour autant que je , pour toute valeur donnée de la valeur de est un nombre. Par conséquent, en acceptant que et soient fixes pour le moment (comme ils le sont dans votre code), est une fonction de . Mais cette dernière, étant la réalisation de deux distributions binomiales, ne peut atteindre qu'un ensemble discret de valeurs. Quand je reproduis votre code , je reçois décidément non histogrammes uniformes pour les petites .

N, n_{A}, n_{B},

$N,n_A,n_B,$

S

$S$

N, p_{A},

$N, p_A,$

p_{B}

$p_B$

S

$S$

(n_{A}, n_{B})

$(n_A,n_B)$ R

N

$N$

— whuber

Bien que votre ait en effet des valeurs comprises entre et , ne confondez pas cela avec des valeurs non discrètes: il peut avoir au plus valeurs distinctes (et en fait en avoir moins que cela). Cela peut ne pas être parfaitement clair pour vous car votre simulation génère des estimations de plutôt que ses valeurs correctes et les estimations ont essentiellement une distribution continue.

S

$S$

0

$0$

1

$1$

N^{2}

$N^2$

S

$S$

— whuber

@whuber oui, vous avez raison, excellente observation. Je ne sais toujours pas pourquoi ça a l' air uniforme alors.

— Cam.Davidson.Pilon

Réponses:

TL; DR: Des mélanges de distributions normales peuvent sembler uniformes lorsque les tailles de bacs sont grandes.

Cette réponse emprunte à l'exemple de code de @ whuber (que je pensais d'abord être une erreur, mais rétrospectivement était probablement un indice).

Les proportions sous - jacentes de la population sont égaux: a = b = 0.5.
Chaque groupe, A et B possède 10000 membres: N = 10000.
Nous allons effectuer 5000 répétitions d'une simulation: for i in range(5000):.

En fait, ce que nous faisons est une d'une . Dans chacune des 5000 itérations nous ferons . $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$

Dans chaque itération de nous simuler un nombre aléatoire de A et B qui sont « succès » (AKA converti) compte tenu des proportions égales sous - jacentes définies précédemment: . En théorie, cela donnera A = 5000 et B = 5000, mais A et B varient d'une exécution sim à l'autre et sont répartis sur les 5000 exécutions de simulation indépendamment et (approximativement) normalement (nous y reviendrons). $\rm simulation_\rm{prime}$ A = np.random.binomial(N, a); B = np.random.binomial(N, b)

Passons maintenant à pour une seule itération de dans laquelle A et B ont remporté un nombre égal de succès (comme ce sera la moyenne du cas). Dans chaque itération de nous allons, étant donné A et B, créer des variables aléatoires de la distribution bêta pour chaque groupe. Ensuite, nous les comparerons et découvrirons si , donnant un TRUE ou FALSE (1 ou 0). À la fin d'une série de , nous avons effectué 15 000 itérations et avons 15 000 valeurs VRAI / FAUX. La moyenne de ceux-ci donnera une valeur unique à partir de la distribution d'échantillonnage (approximativement normale) de la proportion de $\rm simulation_\rm {underlying}$ $\rm simulation_\rm{prime}$ $\rm simulation_\rm{underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ $\rm simulation_\rm {underlying}$ ${\rm Beta}_A > {\rm Beta}_B$ .

Sauf que maintenant va sélectionner 5000 valeurs A et B. A et B seront rarement exactement égaux, mais les différences typiques dans le nombre de succès A et B sont éclipsées par la taille totale de l'échantillon de A et B. Les As et Bs typiques produiront plus d'attraction de leur distribution d'échantillonnage des proportions de , mais ceux sur les bords de la distribution A / B seront également extraits. $\rm simulation_\rm{prime}$ ${\rm Beta}_A > {\rm Beta}_B$

Donc, ce que nous tirons essentiellement de nombreuses exécutions de simulation est une combinaison de distributions d'échantillonnage de pour les combinaisons de A et B (avec plus de tirages des distributions d'échantillonnage faites à partir des valeurs communes de A et B que les valeurs rares de A et B). Il en résulte des mélanges de distributions normales. Lorsque vous les combinez sur une petite taille de bac (comme c'est la valeur par défaut pour la fonction d'histogramme que vous avez utilisée et qui a été spécifiée directement dans votre code d'origine), vous vous retrouvez avec quelque chose qui ressemble à une distribution uniforme. ${\rm Beta}_A > {\rm Beta}_B$

Considérer:

a = b = 0.5
N = 10
samples = [] #collects the values of S
for i in range(5000):
    assert a==b
    A = np.random.binomial(N, a); B = np.random.binomial(N, b)
    S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean() 
    samples.append(S)

P.hist(samples,1000)
P.show()

— russellpierce
source

Il y a donc une différence entre le mien et votre code. J'échantillonne A et B dans chaque boucle, vous l'échantillonnez une fois et calculez S 5000 fois.

— Cam.Davidson.Pilon

La différence réside dans vos appels à rbinom, qui renvoie un vecteur. L'appel ultérieur à l' rbetaintérieur replicateest vectorisé, de sorte que la boucle intérieure (interne) utilise un autre et pour chacune des variables aléatoires générées 15000 (enroulant autour de la 5000 finale depuis votre ). Voir pour en savoir plus. Cela diffère du code de @ Cam avec un seul et fixe utilisé dans les 15 000 appels à variation aléatoire pour chacune des 5 000 boucles d' échantillonnage ( ).

A

$A$

B

$B$ NSIM = 10000?rbeta

A

$A$

B

$B$ replicate

— cardinal

voici la sortie pour les curieux: imgur.com/ryvWbJO

— Cam.Davidson.Pilon

Les seules choses dont je suis conscient qui sont potentiellement pertinentes au niveau conceptuel sont que a) la distribution attendue des résultats est symétrique, b) une taille de bac de 1 est toujours uniforme, c) une taille de bac de 2 pour une distribution symétrique apparaîtra toujours également uniforme, d) le nombre de distributions d'échantillonnage possibles qui peuvent être tirées des augmentations avec N, e) les valeurs de S ne peuvent pas s'accumuler sur 0 ou 1 seul parce que la bêta n'est pas définie quand il y a 0 succès dans l'un ou l'autre groupe , et f) les échantillons sont limités entre 0 et 1.

— russellpierce

À titre d'observation, nous pouvons voir que les distances entre les centroïdes des distributions d'échantillonnage diminuent à mesure que les centroïdes des distributions d'échantillonnage s'éloignent de 0,5 (probablement lié au point f ci-dessus). Cet effet a tendance à contrecarrer la tendance des hautes fréquences d'observations pour les succès presque égaux les plus courants dans les cas du groupe A et du groupe B. Cependant, donner une solution mathématique pour expliquer pourquoi c'est ou pourquoi cela devrait produire des distributions normales pour certaines tailles de bacs n'est pas n'importe où près de mon territoire.

— russellpierce

Pour avoir une idée de ce qui se passe, sentons-nous libres de faire très grand et, ce faisant, d'ignorer le comportement de et d'exploiter les théorèmes asymptotiques qui déclarent que les distributions bêta et binomiale deviennent approximativement normales. (Avec un peu de mal, tout cela peut être rendu rigoureux.) Lorsque nous faisons cela, le résultat émerge d'une relation spécifique entre les différents paramètres. $N$ $O(1/N)$

Parce que nous prévoyons d'utiliser des approximations normales, nous prêterons attention aux attentes et aux variances des variables:

Comme binomiale variables aléatoires, et ont des attentes de et les écarts de . Par conséquent et ont des attentes de et de la variance . $(N, p)$ $n_A$ $n_B$ $pN$ $p(1-p)N$ $\alpha=n_A/N$ $\beta=n_B/N$ $p$ $p(1-p)/N$
En tant que variable bêta , a une attente de et une variance de $(n_A+1, N+1-n_A)$ $P_A$ $(n_A+1)/(N+2)$ . En se rapprochant, on constate que a une attente de $(n_A+1)(N+1-n_A) / [(N+2)^2(N+3)]$ $P_A$

$E (P_{A}) = α + O (1 / N)$ $\mathbb{E}(P_A) = \alpha+O(1/N)$
et une variance de

$Var (P_{A}) = α (1 - α) / N + O (1 / N^{2}),$ $\text{Var}(P_A) = \alpha(1-\alpha)/N + O(1/N^2),$
avec des résultats similaires pour . $P_B$

$P_A$ $P_B$ $(\alpha, \alpha(1-\alpha)/N)$ $(\beta,\beta(1-\beta)/N)$ $P_A-P_B$

P_{A} - P_{B} \approx Normal (α - β, \frac{α (1 - α) + β (1 - β)}{N}) .

$P_A-P_B \approx \text{Normal}\left(\alpha-\beta, \frac{\alpha(1-\alpha) + \beta(1-\beta)}{N}\right).$

$N$ $\alpha(1-\alpha) + \beta(1-\beta)$ $p(1-p)+p(1-p)=2p(1-p)$ $O(1/N)$ $\Phi$

Pr (P_{A} > P_{B}) = Pr (P_{A} - P_{B} > 0) \approx Φ (\frac{α - β}{\sqrt{2 p (1 - p) / N}}) .

$\Pr(P_A\gt P_B) =\Pr(P_A-P_B\gt 0) \approx \Phi\left(\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}\right).$

$\alpha-\beta$ $2p(1-p)/N,$ $Z=\frac{\alpha-\beta}{\sqrt{2p(1-p)/N}}$ $\Phi$ $\Phi(Z)$

— whuber
source

P_{A} - P_{B} \approx N o r m a l

$P_A - P_B \approx Normal$

Φ

$\Phi$

P_{A} - P_{B}

$P_A-P_B$

P_{A}

$P_A$

P_{B}

$P_B$

X

$X$

F

$F$

F (X)

$F(X)$

P r (P_{A} > P_{B})

$Pr(P_A>P_B)$

X = P_{A} - P_{B}

$X = P_A-P_B$

μ = α - β

$\mu=\alpha-\beta$

σ^{2} = 2 p (1 - p) / N

$\sigma^2 = 2p(1-p)/N$

X

$X$

Pr (X > 0) = Pr ((X - μ) / σ > (0 - μ) / σ) = 1 - Φ (- μ / σ) = Φ (μ / σ) .

$\Pr(X\gt 0) = \Pr((X-\mu)/\sigma \gt (0-\mu)/\sigma) = 1-\Phi(-\mu/\sigma) = \Phi(\mu/\sigma).$

@whuber c'est assez étonnant. Tu es un merveilleux professeur. J'apprécie à la fois la vôtre et la réponse de rpierce, je lui donnerai toujours le crédit car cela a résolu notre problème, et vous avez montré pourquoi le comportement se produit. Ty!

— Cam.Davidson.Pilon