Il existe déjà d’excellentes réponses à cette question, mais je voudrais expliquer pourquoi l’erreur type est ce qu’elle est, pourquoi nous utilisons dans le cas le plus défavorable et comment l’erreur type varie avec .p=0.5n
Supposons que nous ne prenions un sondage que pour un seul électeur, appelons-le 1 et demandons "Voterez-vous pour le Parti pourpre?" Nous pouvons coder la réponse en tant que 1 pour "oui" et 0 pour "non". Disons que la probabilité d'un "oui" est . Nous avons maintenant une variable aléatoire binaire qui est 1 avec la probabilité et 0 avec la probabilité . Nous disons que est une variable de Bernouilli avec une probabilité de succès , que nous pouvons écrire . Le prévu, ou moyen,pX1p1−pX1pX1∼Bernouilli(p)X1E(X1)=∑xP(X1=x)xX1. Mais il n'y a que deux résultats, 0 avec la probabilité et 1 avec la probabilité , donc la somme est simplement . Arrêtez-vous et réfléchissez. Cela semble tout à fait raisonnable - s'il y a 30% de chances que l'électeur 1 soutienne le parti Purple, et que nous avons codifié la variable comme étant 1 si elles disent "oui" et 0 si elles disent "non", nous le ferions. s'attendre à ce que soit 0,3 en moyenne.1−ppE(X1)=0(1−p)+1(p)=pX1
Pensons ce qui se passe, nous . Si alors et si alors . Donc, en fait, dans les deux cas. Puisqu'ils sont identiques, ils doivent avoir la même valeur attendue, donc . Cela me donne un moyen simple de calculer la variance d’une variable de Bernouilli: j’utilise et donc l’écart type est .X1X1=0X21=0X1=1X21=1X21=X1E(X21)=pVar(X1)=E(X21)−E(X1)2=p−p2=p(1−p)σX1=p(1−p)−−−−−−−√
Évidemment, je veux parler à d’autres électeurs - appelons-les électeurs 2, 3, jusqu’à l’électeur . Supposons qu'ils ont tous la même probabilité de soutenir le Parti pourpre. Maintenant nous avons variables de Bernouilli, , à , avec chaque pour de 1 à . Ils ont tous la même moyenne, , et la même variance, .npnX1X2XnXi∼Bernoulli(p)inpp(1−p)
J'aimerais savoir combien de personnes dans mon échantillon ont répondu "oui" et, pour ce faire, je peux simplement additionner tous les . Je vais écrire . Je peux calculer la valeur moyenne ou attendue de en utilisant la règle suivante: si ces attentes existent, et en étendant cela à . Mais je additionne de ces attentes, et chacune est , donc j’obtiens au total queXiX=∑ni=1XiXE(X+Y)=E(X)+E(Y)E(X1+X2+…+Xn)=E(X1)+E(X2)+…+E(Xn)npE(X)=np. Arrêtez-vous et réfléchissez. Si j'interroge 200 personnes et que chacune a 30% de chances d'affirmer qu'elles soutiennent le parti violet, je m'attendrais bien entendu à ce que 0,3 x 200 = 60 personnes disent "oui". Donc, la formule semble juste. Moins "évident" est comment gérer la variance.np
Il existe une règle qui dit
mais je ne peux l'utiliser que si mes variables aléatoires sont indépendantes les unes des autres . Tellement bien, faisons cette hypothèse, et par une logique similaire à celle d’avant, je peux voir que . Si une variable est la somme de essais de Bernoulli indépendants , avec une probabilité de succès identique , nous disons que a une distribution binomiale, . Nous venons de montrer que la moyenne d'une telle distribution binomiale est et que la variance est .
Var(X1+X2+…+Xn)=Var(X1)+Var(X2)+…+Var(Xn)
Var(X)=np(1−p)Xn pXX∼Binomial(n,p)npnp(1−p)
Notre problème initial était de savoir comment estimer partir de l'échantillon. La façon sensée de définir notre estimateur est . Par exemple, sur 64 personnes sur notre échantillon de 200 personnes ont répondu "oui", nous estimons que 64/200 = 0,32 = 32% des personnes déclarent soutenir le Parti pourpre. Vous pouvez voir que est une version « allégée » de notre nombre total de oui-électeurs, . Cela signifie que c'est toujours une variable aléatoire, mais qu'elle ne suit plus la distribution binomiale. Nous pouvons trouver la moyenne et la variance, parce que quand nous escaladons une variable aléatoire par un facteur constant alors il obéit aux règles suivantes: ( de sorte que les échelles moyennes par le même facteur ) etpp^=X/np^XkE(kX)=kE(X)kVar(kX)=k2Var(X) . Notez comment la variance augmente de . Cela a du sens lorsque vous savez qu'en général, la variance est mesurée dans le carré des unités dans lesquelles la variable est mesurée: ce n’est pas applicable ici, mais si notre variable aléatoire avait été une hauteur en cm, la variance serait en quelle échelle différemment - si vous doublez les longueurs, vous quadruplerez la surface.k2cm2
Ici, notre facteur d’échelle est . Cela nous donne . C'est bien! En moyenne, notre estimateur est exactement ce qu'il "devrait" être, la probabilité réelle (ou de population) qu'un électeur aléatoire déclare qu'il votera pour le Parti pourpre. Nous disons que notre estimateur est impartial . Mais même s’il est correct en moyenne, il sera parfois trop petit et parfois trop haut. Nous pouvons voir à quel point cela risque d’être erroné en regardant sa variance. . L’écart type est la racine carrée,1nE(p^)=1nE(X)=npn=pp^Var(p^)=1n2Var(X)=np(1−p)n2=p(1−p)np(1−p)n−−−−−√et parce que cela nous donne une idée de la mauvaise qualité de notre estimateur (il s’agit en fait d’une erreur fondamentale moyenne , une méthode de calcul de l’erreur moyenne qui traite les erreurs positives et négatives de la même manière, en les comparant au carré avant d’établir une moyenne). , on l’appelle généralement l’ erreur type . Une bonne règle empirique, qui fonctionne bien pour les grands échantillons et qui peut être traitée de manière plus rigoureuse en utilisant le célèbre théorème de la limite centrale , est que la plupart du temps (environ 95%), l'estimation sera fausse de moins de deux erreurs types.
Comme il apparaît dans le dénominateur de la fraction, des valeurs plus élevées de - plus grands échantillons - rendent l'erreur type plus petite. C'est une bonne nouvelle, car si je veux une petite erreur type, je veux que la taille de l'échantillon soit assez grande. La mauvaise nouvelle est que est à l’intérieur d’une racine carrée. Par conséquent, si je quadruplais la taille de l’échantillon, je ne ferais que réduire de moitié l’erreur standard. De très petites erreurs types vont impliquer des échantillons très très volumineux, donc coûteux. Il y a un autre problème: si je veux cibler une erreur type particulière, disons 1%, alors je dois savoir quelle valeur de utiliser dans mon calcul. Je pourrais utiliser des valeurs historiques si j'ai des données de sondage antérieures, mais j'aimerais me préparer au pire des cas. Quelle valeur dennppest le plus problématique? Un graphique est instructif.
L'erreur type la plus défavorable (la plus élevée) se produira lorsque . Prouver que je pourrais utiliser le calcul, mais une algèbre de lycée fera l'affaire, tant que je saurai comment " compléter le carré ". p=0.5
p(1−p)−−−−−−−√=p−p2−−−−−√=14−(p2−p+14)−−−−−−−−−−−−−−√=14−(p−12)2−−−−−−−−−−−√
L'expression est que les crochets sont au carré, donc retournera toujours une réponse nulle ou positive, qui sera ensuite enlevée à un quart. Dans le pire des cas (grande erreur type), le moins possible est enlevé. Je sais que le moins que l'on puisse soustraire est zéro, et cela se produira lorsque , donc lorsque . Le résultat de cela est que j'obtiens de plus grandes erreurs-types lorsque j'essaie d'estimer le soutien aux partis politiques par exemple à près de 50% du vote, et des erreurs-types plus faibles pour estimer le soutien aux propositions qui sont sensiblement plus ou moins populaires que cela. En fait, la symétrie de mon graphique et de mon équation m’indique que j’obtiendrais la même erreur type pour mes estimations du soutien du Parti pourpre, qu’il bénéficie d’un soutien populaire de 30% ou de 70%.p−12=0p=12
Alors, combien de personnes dois-je interroger pour maintenir l’erreur type inférieure à 1%? Cela signifierait que, la grande majorité du temps, mon estimation sera à 2% de la proportion correcte. Je sais maintenant que l’erreur standard la plus défavorable est ce qui me donne et ainsi de suite . Cela expliquerait pourquoi vous voyez des sondages parmi des milliers.0.25n−−−√=0.5n√<0.01n−−√>50n>2500
En réalité, une erreur type faible ne garantit pas une bonne estimation. De nombreux problèmes de sondage sont de nature pratique plutôt que théorique. Par exemple, j’ai supposé que l’échantillon était constitué d’électeurs aléatoires ayant chacun la même probabilité , mais le fait de prendre un échantillon "aléatoire" dans la vie réelle présente de nombreuses difficultés. Vous pouvez essayer de voter par téléphone ou en ligne - mais non seulement tout le monde n’a pas un téléphone ou un accès Internet, mais ceux qui ne le font pas peuvent avoir des données démographiques (et des intentions de vote) très différentes de celles des autres. Pour éviter d’introduire un biais dans leurs résultats, les sociétés de sondage effectuent toutes sortes de pondérations complexes de leurs échantillons, et non la simple moyennep∑Xinque j'ai pris. De plus, les gens mentent aux sondeurs! Les différentes manières dont les sondeurs ont compensé cette possibilité sont évidemment controversées. Vous pouvez voir une variété d’approches dans la manière dont les entreprises de sondage ont traité le soi-disant Shy Tory Factor au Royaume-Uni. Une méthode de correction a consisté à examiner comment les gens dans le passé avaient voté pour juger de la plausibilité de leur intention de vote déclarée, mais il s'avère que même s'ils ne mentent pas, de nombreux électeurs ne parviennent tout simplement pas à se souvenir de leur histoire électorale . Lorsque vous avez ce problème, il est franchement très inutile de réduire "l'erreur type" à 0,00001%.
Pour finir, voici quelques graphiques montrant comment la taille de l’échantillon requise - selon mon analyse simpliste - est influencée par l’erreur-type souhaitée et comment la valeur "pessimale" de est comparée aux proportions plus raisonnables. Rappelez-vous que la courbe pour serait identique à celle de raison de la symétrie du graphique précédent de p=0.5p=0.7p=0.3p(1−p)−−−−−−−√