Nous étudions les tests statistiques bayésiens et rencontrons un phénomène étrange (du moins pour moi).
Prenons le cas suivant: nous souhaitons mesurer quelle population, A ou B, a un taux de conversion plus élevé. Pour un contrôle d' , nous définissons , c'est-à-dire que la probabilité de conversion est égale dans les deux groupes. Nous générons des données artificielles en utilisant un modèle binomial, par exemple
Nous essayons ensuite d'estimer le utilisant un modèle bêta-binomial bayésien afin d'obtenir des postérieurs pour chaque taux de conversion, par exemple
Notre statistique de test est calculée en calculant via monte carlo.
Ce qui m'a surpris, c'est que si , alors . Je pensais qu'il serait centré autour de 0,5 et même convergerait à 0,5 à mesure que la taille de l'échantillon, , augmente.
Ma question est, pourquoi quand ?
Voici du code Python à démontrer:
%pylab
from scipy.stats import beta
import numpy as np
import pylab as P
a = b = 0.5
N = 10000
samples = [] #collects the values of S
for i in range(5000):
assert a==b
A = np.random.binomial(N, a); B = np.random.binomial(N, b)
S = (beta.rvs(A+1, N-A+1, size=15000) > beta.rvs(B+1, N-B+1, size=15000)).mean()
samples.append(S)
P.hist(samples)
P.show()
R