Lors d'une élection, comment savoir avec certitude qu'un candidat sera le vainqueur?

Il y a eu une élection générale où j'habite hier et la chaîne de télévision a commencé à annoncer les gagnants bien avant l'ouverture de tous les scrutins.

Ils ont bien fonctionné sur tous les plans, et je ne suis pas vraiment surpris qu'ils l'aient fait. Je sais que les statistiques sont absolument viables. Pourtant, je suis curieux. En supposant:

nous avons ouvert sur bulletins de vote; $i$ $j$
nous avons candidats dont les scores sont en cours ; $n$ $c_1, c_2, c_3, ... c_n$

Comment calculer la certitude avec laquelle le candidat principal est le gagnant?

elections

— zneak
source

Gardez à l'esprit qu'ils ont généralement accès à des données de sondage de sortie étendues et à d'autres données qu'ils peuvent utiliser pour prédire le résultat. Ils n'ont besoin que d'une confirmation suffisante du décompte entrant pour s'assurer qu'ils ne sont pas hors de portée en raison d'une erreur d'échantillonnage. Il y a certainement des complexités impliquées et les décomptes entrants sont généralement un échantillon biaisé, mais les sondages de sortie contribuent grandement à les aider à résoudre certains de ces problèmes.

— gung - Rétablir Monica

Si «avec certitude» est censé être pris à la lettre, les statistiques ne peuvent (presque?) Jamais répondre à une question «avec certitude». Mais nous pouvons donner des réponses avec un haut niveau de confiance que la réponse sera correcte. (En d'autres termes, si nous obtenons nos données et faisons nos analyses correctement, nous pouvons dire des choses comme: "Ma réponse ne sera fausse que x% du temps.")

— Emil Friedman

Réponses:

La principale difficulté dans la pratique n'est pas l'incertitude statistique qu'une séquence de coups de chance aurait donné à un candidat plus de voix. La principale difficulté, d'un ordre de grandeur ou plus, est que les bulletins de vote ouverts ne sont presque jamais un échantillon impartial des suffrages exprimés. Si vous ignorez cet effet, vous obtenez la fameuse erreur "Dewey Defeats Truman", qui s'est produite avec un grand échantillon biaisé.

Dans la pratique, les électeurs qui favorisent un candidat par rapport à un autre ne sont pas répartis également par région, selon qu'ils travaillent de jour ou s'ils seraient déployés à l'étranger et voteraient donc par bulletin de vote par correspondance. Ce ne sont pas de petites différences.

Je pense que ce que font les agences de presse maintenant, c'est de diviser la population en groupes et d'utiliser les résultats pour estimer le vote de chaque groupe (y compris la participation). Celles-ci peuvent être basées sur des modèles et des hypothèses antérieures basées sur des élections précédentes, et pas seulement sur les données de cette élection. Ceux-ci peuvent ne pas prendre en compte les bizarreries telles que les bulletins de vote à papillon de Palm Beach.

— Douglas Zare
source

En Australie jusqu'à il y a environ 10 à 15 ans, les partis conservateurs ont généralement commencé fort au début du décompte, les partis progressistes faisant un retour tardif. Les réseaux de télévision savaient probablement ce qui se passait, mais la variabilité a probablement fait augmenter le drame. Tout a changé quand le nom d'un analyste, Antony Green, a commencé à utiliser les résultats stand par stand pour tenir compte du fait que les petits stands dans les zones rurales ont tendance à faire leurs décomptes et résultats tôt, et ils ont tendance à voter de façon plus conservatrice. Antony a correctement appelé un résultat d'élection des heures avant que quiconque l'utilise.

— Bogdanovist

Les résultats stand par stand des années précédentes peuvent être utilisés pour calibrer très précisément les estimations du résultat total.

— Peter Ellis

@DouglasZare Je pense que vous voulez dire que les bulletins actuellement ouverts ne sont pas un échantillon aléatoire.

— Michael R. Chernick

@Michael Chernick: Quelle est la différence entre un échantillon non aléatoire et un échantillon biaisé? en.wikipedia.org/wiki/Sampling_bias semble les utiliser comme synonymes.

— Douglas Zare

@DouglasZare Je vois à partir de votre lien que wikipedia utilise un échantillon biaisé comme synonyme de non aléatoire. Je pense que c'est un mauvais choix. Le biais général fait référence à l'attente d'un estimateur qui n'est pas égal à la vraie valeur du paramètre. Dans le contexte de l'échantillonnage, un échantillon non aléatoire n'implique pas de biais pour une estimation particulière. Cela peut ou non conduire à des biais.

— Michael R. Chernick

Dans l'échantillonnage d'enquête, l'erreur-type de l'estimation de la proportion est nécessaire. Cela dépend plus de i que de j. Il faut également que les bulletins de vote ouverts soient sélectionnés au hasard. Si p est la vraie proportion finale pour le candidat A, alors la variance de l'estimation est

\frac{(1 - \frac{i}{j}) p (1 - p)}{i}

$\frac{(1-\frac{i}{j})p(1-p)}{i}$

$(1-\frac{i}{j})$ est appelé le facteur de correction de la population finie. Pour estimer cette variance, l'estimation habituelle de p est substituée à p dans la formule. L'erreur standard est obtenue en prenant la racine carrée. Pour prédire un gagnant, le sondeur peut utiliser l'estimation plus ou moins 3 erreurs types. Si 0,5 n'est pas contenu dans l'intervalle, le candidat A est déclaré vainqueur si 0,5 est inférieur à la limite inférieure, ou son adversaire est déclaré vainqueur si 0,5 est supérieur à la limite supérieure. Bien sûr, cela ne dit qu'avec une très grande confiance qui sera le vainqueur dans le cas où 0,5 est en dehors de l'intervalle. Le niveau de confiance est de 0,99 si vous utilisez trois erreurs standard (basées sur l'approximation normale du binôme). Si 0,5 est dans l'intervalle, personne n'est déclaré vainqueur et le sondeur attend que plus de données s'accumulent.

En faisant une projection, les sondeurs peuvent sélectionner un échantillon aléatoire stratifié parmi les votes accumulés pour éviter tout biais potentiel qui pourrait se produire si l'on regarde tous les bulletins de vote comptés. Le problème avec l'examen de tous les votes accumulés est que certaines circonscriptions finissent par compter sur les autres et qu'elles peuvent ne pas être représentatives de la population.

L'article ici fournit une bonne couverture du problème et de nombreuses références.

Il a été souligné que les votes accumulés peuvent fournir des estimations biaisées des proportions, car soit les circonscriptions qui n'ont pas encore été déclarées sont des circonscriptions qui ont tendance à favoriser le parti avec le candidat en fuite, soit les bulletins de vote par correspondance sont susceptibles de favoriser le candidat en fuite. et ces votes sont comptés en dernier. Les sondeurs sophistiqués comme Harris et Gallup ne tombent pas dans de tels pièges. La simple analyse de la construction d'intervalles de confiance basée sur les votes accumulés que j'ai décrite n'est qu'un des facteurs utilisés. Ces sondeurs ont beaucoup plus d'informations à leur disposition. Ils ont des sondages qui ont été effectués peu de temps avant les élections et ils ont les schémas de vote de tous les bureaux de vote et des votes des absents lors des élections des dernières années.

Donc, s'il y a des biais clairs qui pourraient faire basculer une élection serrée dans la direction opposée, les sondeurs le reconnaîtront et retarderont la projection d'un gagnant.

Aux États-Unis, les bulletins de vote par correspondance proviennent principalement des militaires à l'étranger et des étudiants qui sont à l'école loin de chez eux. Alors que les militaires ont tendance à être plus conservateurs et à voter pour les républicains, les collègues étudiants ont tendance à être plus libéraux et à voter démocrates. Toutes ces considérations sont prises en compte.

Le soin et la sophistication des sondages modernes sont la raison pour laquelle des erreurs grossières telles que le sondage Literary Digest de 1936 ou la concession prématurée du journal de Chicago de l'élection de 1948 à Dewey ne se sont pas produites depuis lors.

— Michael R. Chernick
source

Bien que l'analogie implicite avec l'échantillonnage d'enquête soit appropriée, cette question n'ajoute-t-elle pas des facteurs de complication? La première est la possibilité de plus de deux candidats. Deuxièmement, il s'agit d'un problème de décision séquentiel : contrairement au sondeur, qui spécifie généralement une taille de sondage et prend une décision en fonction de l'échantillon, à chaque instant, le réseau a un échantillon croissant et doit décider d'appeler les élections ou d'attendre Plus d'information. Les applications d'enquête que vous citez ici ne semblent pas applicables à cette situation dynamique. Et pourquoi le réseau utiliserait-il 3 SE? (Sa réputation est en jeu.)

— whuber

@whuber Je conviens qu'il y a des complications qui ne sont probablement pas prises en compte dans la pratique. J'ai choisi pour simplifier un cas à deux candidats où la majorité est une victoire. Je pense que c'est la situation que le PO avait en tête. Gagner à la pluralité avec trois candidats ou plus impliquerait de montrer que le "candidat gagnant avait une proportion plus élevée que ses adversaires. Certes, si vous effectuez le sondage plus d'une fois, la nature séquentielle de l'échantillonnage doit être prise en compte. Je ne suis pas sûr que il est.

— Michael R. Chernick

Mon choix de 3 SE était parce que je pense que les sondeurs veulent être "très sûrs" qu'ils ont raison avant de déclarer un gagnant. Par conséquent, je pense que 3 serait utilisé sur 2. Si vous voulez un risque d'erreur encore plus faible, vous pourriez aller au-dessus de 3. J'ai utilisé la formule de l'erreur standard pour donner au PO une idée de la façon dont le niveau de certitude dépend de i et j d'une manière simple. Compliquer la situation rendrait le résultat plus compliqué et la dépendance I i et j ne serait pas aussi clairement perçue.

— Michael R. Chernick

n

$n$

2

$2$

Puisque je reçois plusieurs downvotes, quelqu'un pourrait-il expliquer la justification de cela?

— Michael R. Chernick