Pouvez-vous expliquer pourquoi le lien statistique n'est pas naïvement rejeté lorsque


12

J'ai besoin d'aide pour expliquer et citer des textes statistiques de base, des articles ou d'autres références, pourquoi il est généralement incorrect d'utiliser la statistique de la marge d'erreur (ME) signalée dans les sondages pour déclarer naïvement un lien statistique.

Un exemple: le candidat A conduit candidat B dans un sondage, pour cent, 4,5 % de la marge d'erreur pour 500 électeurs interrogés.39-314.5%500

Mon ami raisonne ainsi:

En raison des subtilités de la modélisation statistique, la marge d'erreur signifie que le véritable support de A pourrait être aussi bas que 34,5% et que les B pourraient atteindre 35,5%. Par conséquent, A et B sont en fait dans une chaleur morte statistique.

Toute l'aide appréciée pour articuler clairement le défaut du raisonnement de mon ami. J'ai essayé d'expliquer qu'il est erroné de rejeter l'hypothèse naïvement « A conduit B » si . pUNE-pB<2MOE


Pour plus de détails à ce sujet, y compris des approches pour combiner correctement les MOE , voir stats.stackexchange.com/questions/18215 .
whuber

Réponses:


7

Ma première tentative de réponse était défectueuse (voir ci-dessous pour la réponse défectueuse). La raison pour laquelle elle est erronée est que la marge d'erreur (ME) signalée s'applique au pourcentage de vote d'un candidat, mais pas à la différence des pourcentages. Ma deuxième tentative répond explicitement un peu mieux à la question posée par le PO.

Deuxième essai

L'ami du PO raisonne comme suit:

  1. Construisez l'intervalle de confiance pour le candidat A et le candidat B séparément en utilisant le ME donné.
  2. S'ils se chevauchent, nous avons une audition morte statistique et s'ils ne le font pas, alors A mène actuellement B.

Le principal problème ici est que la première étape n'est pas valide. Construire des intervalles de confiance indépendamment pour les deux candidats n'est pas une étape valide car les pourcentages d'interrogation pour les deux candidats sont des variables aléatoires dépendantes. En d'autres termes, un électeur qui décide de ne pas voter pour A peut éventuellement décider de voter pour B à la place. Ainsi, la bonne façon d'évaluer si le plomb est significatif ou non est de construire un intervalle de confiance pour la différence. Voir le wiki pour savoir comment calculer l'erreur standard pour la différence des pourcentages d'interrogation sous certaines hypothèses.

Réponse imparfaite ci-dessous

À mon avis, la façon «correcte» de penser au résultat du scrutin est la suivante:

Dans un sondage auprès de 500 électeurs, les chances que nous voyons une différence de plomb aussi élevée que 8% sont supérieures à 5%.

Que vous pensiez que «A mène B» ou «A lie B» dépend alors de la mesure dans laquelle vous êtes prêt à accepter 5% comme critère de coupure.


@Srikvant. Supposons que 5% est une signification acceptable. Je cherche une réponse plus précise, qui expose l'idée que "A mène B" est une nouvelle statistique, la différence de pA et pB, et que son intervalle de confiance correspondant n'est pas simplement 2 * MOE.

4

Il est plus facile à expliquer en termes d'écarts-types plutôt qu'en intervalles de confiance.

pUNE+pB=1pB=1-pUNE

Vuner(pUNE-pB)=Vuner(2pUNE-1)=4Vuner(pUNE)
S(pUNE-pB)=2S(pUNE).
pUNEpB
Vuner(pUNE-pB)=Vuner(pUNE)+Vuner(pB)-2Cov(pUNE,pB).

pUNE+pB=1pUNEpBS(pUNE-pB)2S(pUNE)

Mais toute cette nuance semble indiquer que les organismes de sondage devraient signaler la marge d'erreur sur la différence. Où est Nate Silver?


4

Non seulement c'est une mauvaise façon d'appeler les choses, mais ce n'est même pas une chaleur morte statistique.

Vous n'utilisez pas les intervalles de confiance qui se chevauchent de cette façon. Si vous vouliez vraiment seulement dire que le candidat A allait gagner, alors le candidat A est définitivement en tête. Le plomb est de 8% MOE 6,4%. L'intervalle de confiance de ce score de soustraction n'est pas le double de l'intervalle de confiance des scores individuels. Ce qui est implicite en affirmant que le chevauchement des IC (± MOE) autour de chaque estimation est une chaleur morte. En supposant un N et une variance égaux, le MOE de la différence est sqrt (2) multiplié par 4,5. C'est parce que trouver la différence entre les valeurs ne ferait que doubler la variance (SD au carré). L'intervalle de confiance est basé sur un sqrt de la variance, donc les combiner est la moyenne (4,5) * sqrt (2). Étant donné que le ME de votre avance de 8% est d'environ 6,4%, le candidat A est en tête.

Soit dit en passant, les ME sont très conservateurs et basés sur la valeur de choix de 50%. La formule est sqrt (0,25 / n) * 2. Il existe une formule pour calculer les erreurs types des scores de différence que nous pourrions également utiliser. Nous appliquerions cela en utilisant les valeurs trouvées plutôt que le seuil de 50% et cela nous donne toujours une avance significative pour le candidat A (7,5% MOE). Je crois que, compte tenu des commentaires des intervenants et de la proximité de cette coupure avec l'hypothèse retenue, c'est probablement ce qu'ils cherchaient.

Toute introduction aux intervalles de confiance et au pouvoir serait utile ici. Même l'article de Wikipédia sur le MOE semble assez bon.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.