Estimation de la probabilité dans un processus de Bernoulli par échantillonnage jusqu'à 10 échecs: est-elle biaisée?


15

Supposons que nous ayons un processus de Bernoulli avec une probabilité de défaillance (qui sera petite, disons ) à partir de laquelle nous échantillonnons jusqu'à ce que nous rencontrions défaillances. Nous estimons ainsi la probabilité de défaillance comme où est le nombre d'échantillons.q 0,01 10 q : = 10 / N Nqq0,01dixq^: =dix/NN

Question : une estimation biaisée de ? Et si oui, existe-t-il un moyen de le corriger?q^q

Je crains qu'insister sur le dernier échantillon soit un échec qui fausse l'estimation.


5
Les réponses actuelles ne permettent pas de fournir l'estimateur sans biais de variance minimale . Voir la section sur l'échantillonnage et l'estimation ponctuelle de l'article de Wikipedia sur la distribution binomiale négative . (dix-1)/(N-1)
A. Webb

Réponses:


10

Il est vrai que est une estimation biaisée de dans le sens où , mais vous ne devez pas nécessairement laisser cela vous décourager. Ce scénario exact peut être utilisé comme une critique contre l'idée que nous devrions toujours utiliser des estimateurs non biaisés, car ici le biais est davantage un artefact de l'expérience particulière que nous faisons. Les données sont exactement comme si nous avions choisi le nombre d'échantillons à l'avance, alors pourquoi nos inférences devraient-elles changer? qE( q )qq^qE(q^)q

Fait intéressant, si vous collectiez des données de cette manière, puis notiez la fonction de vraisemblance sous les modèles binomiaux (taille d'échantillon fixe) et négatifs, vous constateriez que les deux sont proportionnels l'un à l'autre. Cela signifie que est juste l'estimation du maximum de vraisemblance ordinaire sous le modèle binomial négatif, qui est bien sûr une estimation parfaitement raisonnable.q^


Génial! Il semble (pour mes besoins) que ce biais ne soit pas un problème.
Becky

9

Il n'insiste pas sur le fait que le dernier échantillon est un échec qui fausse l'estimation, il prend l'inverse deN

Donc dans votre exemple mais . Ceci est proche de la comparaison de la moyenne arithmétique avec la moyenne harmonique E[10E[Ndix]=1qE[dixN]q

La mauvaise nouvelle est que le biais peut augmenter à mesure que diminue, mais pas beaucoup une fois que est déjà petit. La bonne nouvelle est que le biais diminue à mesure que le nombre d'échecs requis augmente. Il semble que si vous avez besoin de échecs, alors le biais est limité ci-dessus par un facteur multiplicatif de pour les petits ; vous ne voulez pas de cette approche lorsque vous vous arrêtez après le premier échec q f fqqF qFF-1q

Après échecs, avec vous obtiendrez mais , alors qu'avec vous obtiendrez mais . Un biais d'environ un facteur multiplicatif q = 0,01 E [ Ndixq=0,01E[Ndix]=100E[dixN]0,011097q=0,001E[Ndix]=1000E[dixN]0,001111dix9


7

En complément de la réponse de dsaxton, voici quelques simulations dans R montrant la distribution d'échantillonnage de lorsque et :q^k=10q0=0.02

n_replications <- 10000
k <- 10
failure_prob <- 0.02
n_trials <- k + rnbinom(n_replications, size=k, prob=failure_prob)
all(n_trials >= k)  # Sanity check, cannot have 10 failures in < 10 trials

estimated_failure_probability <- k / n_trials
histogram_breaks <- seq(0, max(estimated_failure_probability) + 0.001, 0.001)
## png("estimated_failure_probability.png")
hist(estimated_failure_probability, breaks=histogram_breaks)
abline(v=failure_prob, col="red", lty=2, lwd=2)  # True failure probability in red
## dev.off()

mean(estimated_failure_probability)  # Around 0.022
sd(estimated_failure_probability)
t.test(x=estimated_failure_probability, mu=failure_prob)  # Interval around [0.0220, 0.0223]

Il ressemble à , ce qui est un biais plutôt faible par rapport à la variabilité de .E[q^]0.022q^

histogramme de q_hat


1
C'est vraiment utile. À ce niveau, ça ne vaut pas la peine de m'inquiéter.
Becky

2
Vous pouvez écrire cette simulation de manière plus concise comme10+rnbinom(10000,10,0.02)
A. Webb

@ A.Webb merci, c'est un bon point. Je réinventais vraiment la roue. Je dois lire? Rnbinom et ensuite je modifierai mon message
Adrian

1
Ce serait 10/(10+rnbinom(10000,10,0.02)). Le paramétrage est en termes de nombre de succès / échecs plutôt que de nombre total d'essais, vous devrez donc ajouter k = 10 en retour. Notez que l'estimateur sans biais serait 9/(9+rnbinom(10000,10,0.02)), un de moins au numérateur et au dénominateur.
A. Webb
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.