Quelle est l'exactitude des données obtenues grâce à un échantillon aléatoire?

Je suis un débutant dans les statistiques, donc si je fais des hypothèses erronées ici, dites-le moi.

Il y a une population N. (Par exemple, Npeut être 1 000 000.) Certaines personnes sont des rousses. Je prends un échantillon nde personnes (disons 10) et je trouve que jce sont des rousses.

Que puis-je dire sur la proportion générale de rousses dans la population? Je veux dire, ma meilleure approximation est probablement j/n, mais quel serait l'écart-type de cette approximation?

Soit dit en passant, quel est le terme accepté pour cela?

— Ram Rachum
source

Pourquoi choisissons-nous toujours les gingembre? :)

— Brandon Bertelsen

Réponses:

Vous pouvez considérer cela comme un essai binomial - vos essais échantillonnent "rousse" ou "non lue". Dans ce cas, vous pouvez construire un intervalle de confiance pour votre proportion d'échantillon ( ) comme documenté sur Wikipedia: $j/n$

Intervalle de confiance de la proportion binomiale

Un intervalle de confiance à 95% indique essentiellement qu'en utilisant le même algorithme d'échantillonnage, si vous répétiez cette opération 100 fois, la véritable proportion se situerait dans l'intervalle indiqué 95 fois.

Mise à jour Soit dit en passant, je pense que le terme que vous recherchez pourrait être une erreur standard qui est l'écart-type des proportions échantillonnées. Dans ce cas, c'est où est votre proportion estimée. Notez que lorsque augmente, l'erreur standard diminue. $\sqrt{{p (1-p)} \over {n}}$ $p$ $n$

— ars
source

@ars: Tout est correct et bien indiqué. Mais une chose semble faire défaut: l'écart type de la "meilleure approximation" j / n dépend de la vraie proportion de roux, pas de celle estimée. Le problème, bien sûr, est que nous ne connaissons pas la véritable proportion. Mais il n'en reste pas moins que l'erreur-type n'est en fait pas égale à l'écart-type de l'approximation, sauf lorsque l'estimation est exactement exacte. Je sais que vous n'avez pas besoin de rappeler cette subtilité, pas plus que la plupart des lecteurs, mais c'est plutôt pertinent pour la question d'origine.

— whuber

@whuber: Cette clarification m'a laissé un peu confus. Étant donné un et un , quelle serait l'erreur type, décrite par et ? (Contrairement à la dépendance à la vraie proportion de rousses, ce que nous ne pouvons pas savoir.)

j

$j$

n

$n$

j

$j$

n

$n$

— Ram Rachum

@ cool-RR: ars a raison sur l'erreur standard. Le fait est que l'erreur standard elle-même est une estimation de la précision de la statistique j / n qui estime la vraie proportion. Par exemple, supposons que 10% de toutes les personnes soient des rousses. Dans de nombreux cas, il peut arriver que j = 0 lorsque n = 10. Vous obtiendriez un SE de Sqrt (0 (1-0) / 10) = 0. Cela sous-estime évidemment la précision réelle de votre statistique p = j / n = 0/10. La vraie précision est Sqrt (0,10 (1-0,90) / n), même si vous ne le savez pas!

— whuber

Encore une fois: je suis intéressé par ce que je peux savoir, pas par ce que je ne peux pas savoir. Prenons votre exemple où et . La proportion la plus probable de rousses est de 0%, mais il y a de fortes chances que ce soit 2% ou 5% ou 10%. Ma question est donc la suivante: étant donné que et , quelle est la fonction de distribution de probabilité de la proportion de roux, à partir des informations que je connais, pas des informations que je ne connais pas?

j = 0

$j=0$

n = 10

$n=10$

j = 0

$j=0$

n = 10

$n=10$

— Ram Rachum

@ cool-RR: pour les petits échantillons, utilisez l'intervalle Agresti-Coull spécifié dans le lien Wikipedia sur les intervalles de confiance. Sur la base de vos observations, vous obtiendrez un intervalle de 95% pour l'estimation. Ensuite, ce que vous saurez, sur la base de ce que vous avez observé, est inhérent à la définition d'un IC à 95%.

— ars

si votre taille d'échantillon $n$ n'est pas une si petite fraction de la taille de la population $N$ comme dans votre exemple, et si vous échantillonnez sans remplacement [Sw / oR], une meilleure expression pour la SE [estimée] est

\hat{S E} = \sqrt{\frac{N - n}{N} \frac{\hat{p} \hat{q}}{n}},

$\hat{SE} = \sqrt{\frac{N - n}{N}\frac{\hat p \hat q}{n}},$

où $\hat p$ est la proportion estimée $j/n$ et $\hat q = 1- \hat p$ .

[le terme $\frac{N-n}{N}$ est appelé le FPC [correction de population finie].

bien que la remarque de whuber soit techniquement correcte, elle semble suggérer que rien ne peut être fait pour obtenir, disons, un intervalle de confiance pour la vraie proportion $p$ . si $n$ est suffisamment grand pour rendre une approximation normale raisonnable [ $np > 10$ , disons], il est peu probable $j=0$ . aussi, si la taille de l'échantillon est suffisamment grande pour une approximation normale en utilisant le vrai $SE$ être raisonnable, en utilisant $\hat{SE}$ donne également une approximation raisonnable.

[si votre $n$ est vraiment petit et vous utilisez Sw / oR, vous devrez peut-être utiliser la distribution hypergéométrique exacte pour $j$ au lieu d'une approximation normale. si vous faites SwR, la taille de $N$ est hors de propos et vous pouvez utiliser des méthodes binomiales exactes pour obtenir un CI pour $p$ .]

en tout cas, puisque $p(1-p) \le 1/4$ , on pourrait toujours être conservateur et utiliser $\frac{1}{2\sqrt{n}}$ au lieu de $\sqrt{\frac{\hat p \hat q}{n}}$ Au dessus. si vous faites cela, il faut un échantillon de $n = 1,111$ pour obtenir une ME estimée [marge d'erreur = 2 $\hat {SE}$ ] de $\pm$ .03 [quelle que soit sa taille $N$ est!].

— ronaf
source