Résultats des élections américaines 2016: qu'est-ce qui n'allait pas avec les modèles de prédiction?


108

D'abord c'était le Brexit , maintenant les élections américaines. De nombreuses prédictions de modèles ont été largement décalées et reste-t-il des leçons à tirer ici? Pas plus tard qu'hier, à 16 heures, heure de Paris, les marchés des paris étaient toujours favorables à Hillary 4 à 1.

Je suppose que les marchés des paris, avec de l’argent réel en jeu, devraient constituer un ensemble de tous les modèles de prédiction disponibles. Il n’est donc pas exagéré de dire que ces modèles n’ont pas fait un très bon travail.

J'ai vu une explication à ce que les électeurs ne voulaient pas s'identifier en tant que partisans de Trump. Comment un modèle pourrait-il incorporer de tels effets?

Une explication macro que j'ai lue est la montée du populisme . La question est alors de savoir comment un modèle statistique pourrait-il capturer une telle tendance macroéconomique?

Ces modèles de prévision donnent-ils trop de poids aux données des sondages et des opinions, pas assez de la position du pays dans une perspective de 100 ans? Je cite les commentaires d'un ami.


9
Comment estimer le "refus de s’identifier en tant que partisan de Trump". effet: Peut-être des groupes de discussion? C'est plus une question de sciences sociales que de statistiques en soi.
kjetil b halvorsen

100
Pourquoi les modèles doivent-ils se tromper simplement parce qu'ils ont prédit un résultat qui ne s'est pas produit? J'ai un modèle qui dit qu'un dé ne va probablement pas montrer un six, mais parfois il montre un six de toute façon.
Dsaxton

4
Je ne sais pas si les modèles se sont vraiment penchés du mauvais côté. Étions-nous en train de lire correctement la sortie des modèles? Je suis également d'accord avec le commentaire de dsaxton.
Richard Hardy

7
Quelques bonnes pensées sur le blog de Andrew Gelman ici .
Richard Hardy

22
Si les probabilités étaient 4: 1, le résultat moins commun devrait toujours se produire fréquemment. C'est que les marchés de paris auraient pu être corrects.
Gay - Rétablir Monica

Réponses:


57

En bref, le vote n’est pas toujours facile. Cette élection a peut-être été la plus difficile.

Chaque fois que nous essayons de faire de l'inférence statistique, une question fondamentale est de savoir si notre échantillon est une bonne représentation de la population d'intérêt. Une hypothèse typique requise pour de nombreux types d'inférence statistique est celle voulant que notre échantillon soit un échantillon totalement aléatoire de la population d'intérêt (et souvent, nous avons également besoin d'échantillons indépendants.). Si ces hypothèses sont vérifiées, nous disposons généralement de mesures de notre incertitude fondées sur la théorie statistique.

Mais nous n’avons absolument pas ces hypothèses comme vraies avec les sondages! Nous avons exactement 0 échantillon de notre population d'intérêt: le nombre de votes réels le jour du scrutin. Dans ce cas, nous ne pouvons faire aucune sorte d'inférence valide sans autres hypothèses non vérifiables sur les données. Ou du moins, impossible à vérifier avant le jour des élections.

Doit-on complètement abandonner et dire "50% -50%!"? Typiquement non. Nous pouvons essayer de faire ce que nous croyons être des hypothèses raisonnables quant à la manière dont les votes seront émis. Par exemple, nous voulons peut-être croire que les sondages sont des estimations non biaisées pour les votes du jour du scrutin, plus un certain bruit temporel non biaisé (c'est-à-dire l'évolution de l'opinion publique au fil du temps). Je ne suis pas un expert en méthodes de sondage, mais je crois que c'est le type de modèle utilisé par le modèle 538. Et en 2012, cela a plutôt bien fonctionné. Donc, ces hypothèses étaient probablement assez raisonnables. Malheureusement, il n’existe aucun moyen réel d’évaluer ces hypothèses, en dehors d’un raisonnement strictement qualitatif. Pour plus de discussion sur un sujet similaire, voir la rubrique Manque non négligeable.

Ma théorie sur la raison pour laquelle les sondages ont si mal fonctionné en 2016: les sondages n'étaient pas des estimations impartiales du comportement du jour de l'électeur. C’est-à-dire que je suppose que les partisans de Trump (et probablement aussi ceux du Brexit) étaient beaucoup plus méfiants à l’égard des sondeurs. Rappelez-vous que M. Trump a activement dénoncé les sondages. En tant que tel, je pense que les partisans de Trump étaient moins susceptibles de faire part de leurs intentions de vote aux enquêteurs que les partisans de ses adversaires. Je suppose que cela a provoqué un fort biais imprévu dans les sondages.

Comment les analystes auraient-ils pu l'expliquer lors de l'utilisation des données du sondage? Sur la base des seules données de sondage, il n’existe aucun moyen réel de procéder de manière quantitative. Les données du sondage ne vous disent rien sur ceux qui n'ont pas participé. Cependant, il est possible d'améliorer qualitativement les sondages en choisissant des hypothèses plus raisonnables (mais non vérifiables) sur la relation entre les données des sondages et le comportement le jour du scrutin. Ceci n’est pas anodin et constitue la partie vraiment difficile d’être un bon sondeur (note: je ne suis pas un sondeur). Notez également que les résultats ont été très surprenants pour les experts, donc ce n’est pas comme si il y avait des signes évidents que les hypothèses étaient totalement erronées cette fois-ci.

Le vote peut être difficile.


1
@horaceT: comment sauraient-ils qu'il y avait des biais jusqu'à ce qu'ils aient des échantillons de la population d'intérêt? L’un des problèmes est qu’au cours de l’histoire, j’imagine qu’il s’agit d’un problème de bruit plutôt que de parti pris . Si les deux parties ont des niveaux égaux de non-réponse, vos estimations seront neutres, légèrement plus bruyantes. Mais depuis que M. Trump a mené une campagne avec des opinions très négatives sur la couverture médiatique et les sondages, beaucoup plus que toute élection précédente, la non-réponse aurait facilement pu être très déséquilibrée en faveur de la sous-représentation des votes de Trump. Ce serait un effet que les sondeurs auraient ...
Cliff AB

38
Pour ce que ça vaut, je ne pense toujours pas que 538 a vraiment échoué. Cela donnait environ 30% de chances (?) De remporter la victoire de Trump, ce qui est sacrément bon - cela signifie que tous les 2 ou 3 fois il s’attendait à avoir raison, il s’attendait à se tromper une fois. C'est une énorme incertitude, bien plus que ce que d'autres sondages semblaient disposés à admettre.
Mehrdad

3
Cet effet est bien connu: il s’appelle l’effet Bradley aux États-Unis et l’effet Shy Tory au Royaume-Uni.
Emilio Pisanty

15
538 (et d'autres choses comme le PEC de Sam Wang) ne sont pas des sondages. Ce sont des modèles construits à partir des résultats d'un sondage. Tous ces modèles ont commencé avec les mêmes données, mais 538 ont prédit beaucoup plus d'incertitude dans les résultats pour des raisons que Nate Silver a beaucoup discutées avant les élections. Cela signifiait que les 538 chances de victoire d'Hillary étaient beaucoup plus faibles, même si elle utilisait les mêmes sondages. Je conviens que 538 n’a pas échoué - compte tenu de son apport, une victoire de Hillary avec beaucoup d’incertitude semble être la meilleure prédiction, même avec le recul.
KAI

6
J'ai lu la prédiction finale 538 le lendemain matin des élections et Nate Silver y indiquait clairement qu'une marge d'erreur de 3% serait bien dans la fourchette habituelle - et si vous regardez son graphique d'une marge d'erreur de 3% en faveur de Trump, cela cadre assez bien avec ce qui s'est réellement passé.
Xiong Chiamiov

35

Il existe un certain nombre de sources d'erreur d'interrogation:

  • Vous trouvez des gens difficiles à atteindre

    Ceci est corrigé en effectuant une analyse démographique, puis en corrigeant votre biais d'échantillonnage. Si votre analyse démographique ne rend pas compte de ce qui rend les gens difficiles à atteindre, cette correction ne répare pas les dégâts.

  • Les gens mentent

    Vous pouvez utiliser les taux historiques auxquels les gens mentent auprès des sondeurs pour influencer votre modèle. Par exemple, historiquement, les gens déclarent qu’ils voteront davantage en tant que troisième parti qu’ils ne le font réellement le jour du scrutin. Vos corrections peuvent être erronées ici.

    Ces mensonges peuvent également gâcher vos autres corrections; s'ils mentent au sujet du vote lors de la dernière élection, ils peuvent être comptés comme des électeurs probables même s'ils ne le sont pas, par exemple.

  • Seules les personnes qui votent finissent par compter

    Quelqu'un peut avoir beaucoup de soutien, mais si ses partisans ne se présentent pas le jour du scrutin, cela ne compte pas. C'est pourquoi nous avons des modèles d'électeur inscrit, d'électeur probable, etc. Si ces modèles sont faux, les choses ne fonctionnent pas.

  • Le vote coûte de l'argent

    Faire des sondages coûte cher, et si vous ne vous attendez pas (disons) que le Michigan retourne vous risquez de ne pas le faire très souvent. Cela peut surprendre lorsqu'un État que vous avez interrogé trois semaines avant les élections ne ressemble à rien de tel le jour du scrutin.

  • Les gens changent d'avis

    Au fil des minutes, des heures, des jours, des semaines ou des mois, les gens changent d’avis. Les sondages sur "ce que vous feriez maintenant" n'aideront pas beaucoup s'ils changent d'avis avant que cela compte. Il existe des modèles qui déterminent approximativement la vitesse à laquelle les gens changent d'avis en se basant sur des sondages historiques.

  • Troupeau

    Si tout le monde déclare qu'Hillary est +3 et que vous obtenez un sondage indiquant Hillary +11 ou Donald +1, vous pouvez le remettre en question. Vous pourriez faire une autre passe et voir s'il y a un échec d'analyse. Vous pourriez même le jeter et faire un autre sondage. Lorsque vous obtenez un sondage Hillary +2 ou +4, vous risquez de ne pas le faire. Les valeurs extrêmes, même si le modèle statistique le dit parfois, peuvent vous donner une mauvaise image.

    Une forme particulièrement déplorable de ce phénomène s’est produite le jour du scrutin, où tous ceux qui ont publié un sondage ont par magie convergé vers la même valeur; ils ont probablement des sondages aberrants, mais personne ne veut être celui qui a dit (par exemple) Hillary +11 la veille de ces élections. Avoir tort dans un troupeau vous fait moins mal.

  • Erreur d'échantillonnage attendue

    Si vous avez 1 million de personnes et que vous demandez à 100 personnes parfaitement aléatoires et si la moitié dit "Apple" et la moitié, "Orange", l'erreur attendue de l'échantillonnage est de +/- 10 environ, même si aucun des problèmes ci-dessus ne se produire. Ce dernier bit est ce que les sondages décrivent comme leur marge d'erreur. Les sondages décrivent rarement ce que les facteurs de correction ci-dessus pourraient introduire comme erreur.


Nate Silver en 538 était l’un des rares agrégateurs de bureaux de vote à utiliser des moyens conservateurs (prudents) pour gérer la possibilité des erreurs de ce type. Il a pris en compte la possibilité d'erreurs corrélées systémiques dans les modèles de sondage.

Tandis que les autres agrégateurs prédisaient une chance de plus de 90% sur un HC, Nate Silver déclarait 70%, car les sondages se situaient dans les "erreurs de sondage normales" d'une victoire de Donald.

Il s'agissait d'une mesure historique de l' erreur de modèle , par opposition à l'erreur d'échantillonnage statistique brute; Et si le modèle et les corrections apportées au modèle étaient erronés?


Les gens continuent de faire les calculs. Mais les résultats préliminaires indiquent qu’une grande partie de cela était des modèles de participation. Les partisans de Donald se sont rendus aux urnes en plus grand nombre et ceux d'Hillary moins nombreux que les modèles de scrutin (et les sondages à la sortie!) Indiqués.

Latino a voté plus pour Donald que prévu. Les Noirs ont voté plus pour Donald que prévu. (La plupart des deux ont voté pour Hillary). Les femmes blanches ont voté plus pour Donald que prévu (un plus grand nombre d’elles ont voté pour Donald que pour Hillary, ce qui n’était pas prévu).

La participation électorale était généralement faible. Les démocrates ont tendance à gagner quand la participation électorale est élevée et les républicains quand la participation est faible.


1
Un problème de taux de participation intéressant est que le sondage lui-même influence le taux de participation. Existe-t-il un modèle de participation pour cela? Il devrait être possible d'avoir une fonction qui prend le taux de participation prévu de l'enquête et le modifie pour les deux parties en fonction des perspectives du candidat. Un candidat éloigné qui est loin derrière peut ne pas avoir plus d'électeurs qui sont plus inquiets après avoir vu le sondage décrire les perspectives de son candidat comme terribles, mais si votre candidat est bien en avance, vous ne travaillerez peut-être pas aussi dur pour aller voter ... Ce n'est évidemment pas un fonction linéaire, mais il devrait être mesurable.
BenPen

2
+1 de moi juste pour parler de l'élevage et de bien l'expliquer. Comme je l'ai expliqué dans ma réponse, je pensais que l'élevage pouvait se dérouler à partir du 5 (ou 3 jours après l'élection) sur la base du graphique 538. Je suppose que nous en saurons plus sur les erreurs réelles des prochains jours. (Vous savez que vous êtes un nerd lorsque vous actualisez de manière obsessionnelle une page Web afin d’envisager la dérivée seconde d’une courbe graphique).
TED

Je ne sais pas comment vous en tenez compte, mais je pense qu’il existe une stigmatisation associée à Trump qui rendrait difficile la quantification de son soutien réel et ne figurerait que dans les résultats des élections. J'aime y voir le corollaire des autocollants: George W. Bush et Obama étaient tous deux présidents de commission, mais bien qu'un autocollant Obama soit répandu et orné sur les voitures avec fierté, un autocollant Bush était comme un trèfle à 4 feuilles. Il y a certains candidats où le soutien ouvert attire trop de chaleur et de vitriol de la part de l'opposition et le soutien est très discret.
Coburn

3
@coburne Il n'y avait aucune preuve de cela dans les primaires; Les partisans de Trump n'étaient pas timides à ce sujet. Les autocollants pour pare-chocs Bush étaient populaires dans différents domaines que ceux d’Obama.
Yakk

@coburne - Ce dont vous parlez s'appelle l'effet Bradley . Il y a un énorme débat sur son existence même. Il y avait une étude qui prétendait avoir trouvé son pouvoir approximativement proportionnel à la quantité de rhétorique chargée de racisme utilisée dans la campagne. Je ne pense pas qu'il y ait beaucoup de débats sur le fait que beaucoup de cela a été utilisé dans celui-ci.
TED

31

Cela a été mentionné dans les commentaires sur la réponse acceptée (info-bulle à Mehrdad ), mais je pense que cela mérite d'être souligné. En réalité, 538 ont très bien réussi ce cycle * .

538 est un agrégateur de scrutation qui exécute des modèles sur chaque état pour tenter de prédire le gagnant. Leur dernière manche donnait à Trump environ 30% de chances de gagner. Cela signifie que si vous gérez trois élections avec des données comme celle-ci, vous vous attendez à ce que l'équipe Red en gagne une. Ce n'est pas vraiment une si petite chance. C’est sûrement un assez gros pour que j’ai pris des précautions (par exemple: le vendredi précédant le mercredi 9, je demandais de partir au travail, compte tenu de la probabilité qu’il soit suffisamment proche pour être tard le soir).

Une chose que 538 vous dira si vous traînez, c'est que si les bureaux de vote sont inactifs, il y a de fortes chances qu'ils soient tous dans la même direction. Ceci pour deux raisons.

  • Modèles d'électeurs probables. Les bureaux de vote doivent s'ajuster aux types d'électeurs qui se présenteront le jour du scrutin. Nous avons des modèles historiques, mais il ne s'agissait évidemment pas de votre paire de candidats typique, aussi, prévoir sur la base de données antérieures allait toujours être un peu difficile.
  • Dernière élection grégaire . Personne ne veut être le scrutin qui a le plus soufflé les élections. Ainsi, même si cela ne les dérange pas de jouer le rôle d'aberrant au milieu d'une campagne électorale, tous les sondages ont tendance à se réorganiser pour pouvoir dire la même chose. C’est l’une des raisons pour lesquelles les élections ont été accusées de façon aussi flagrante lors de la défaite surprise d’Eric Cantor en 2014, ainsi que pour les résultats étonnamment serrés de la course au Sénat de Virginie de 2014 .

* - 538 ont à présent publié leur propre analyse . Il s’agit surtout de ce qui est dit ci-dessus, mais sa lecture vaut la peine d’être lue si vous souhaitez avoir plus de détails.


Maintenant, un peu de spéculation personnelle. J'étais en fait sceptique quant aux% dernières chances de 538 pour ses 3 derniers jours. La raison en revient à la deuxième puce ci-dessus. Regardons l'historique de leur modèle pour cette élection (à partir de leur site web)

entrez la description de l'image ici

(Malheureusement, les étiquettes la cachent, mais après cela, les courbes ont à nouveau divergé ces trois derniers jours, avec plus de 70% de chances pour Clinton)

Le modèle que nous voyons ici est une divergence répétée suivie d'une décroissance vers une avance de Trump. Les bulles de Clinton ont toutes été causées par des événements. Le premier était les conventions (normalement, il y a un délai de deux jours après un événement pour que celui-ci commence à apparaître dans le scrutin). Le second débat semble avoir été lancé par le premier débat, probablement aidé par la bande TMZ. Ensuite, il y a le troisième point d'inflexion que j'ai marqué dans l'image.

Cela s'est passé le 5 novembre, 3 jours avant les élections. Quel événement a causé cela? Quelques jours auparavant, il y avait eu une autre poussée de courrier électronique, mais cela n'aurait pas dû marcher en faveur de Clinton.

La meilleure explication que je pouvais trouver à l'époque était la conduite d'un sondage. Il ne restait que 3 jours avant les élections, 2 jours avant le scrutin final, et les sondeurs commençaient à s'inquiéter de leurs résultats finaux. La "sagesse conventionnelle" de cette élection (comme en témoignent les modèles de paris) était une victoire facile pour Clinton. Il semblait donc bien possible que cela ne soit pas du tout une inflexion vraie. Si tel était le cas, la vraie courbe à partir du 5 novembre était très probablement une continuation de celle-ci vers la convergence.

Il faudrait un meilleur mathématicien que moi pour estimer la courbe ici sans ce point d'inflexion final suspect, mais je pense que le 8 novembre aurait été proche du point de croisement . Devant ou derrière dépend de combien de cette courbe était réellement réelle.

Maintenant, je ne peux pas dire avec certitude que c'est ce qui s'est passé. Il existe d’autres explications très plausibles (par exemple: Trump a sorti ses électeurs bien mieux que ce à quoi on s’attendait dans un sondeur), mais c’était ma théorie de ce qui se passait à l’époque, et elle s’est avérée prédictive.


1
Je pense que cette étrange inflexion de sondage de ces derniers jours aurait été mieux analysée, mais les partisans de Clinton ont vu ce qu’ils voulaient voir, et les partisans de Trump avaient depuis longtemps cessé de suivre les urnes. J'espère que quelqu'un va le faire maintenant.
TED

Je pensais que les derniers jours s'étaient légèrement normalisés à cause de la déclaration de Comey selon laquelle les nouveaux courriels ne constituaient pas un motif de nouvelle enquête criminelle.
Konrad Rudolph

@ KonradRudolph - C'est l'explication que j'ai entendue donner pour cette inflexion à l'époque. Le problème est que la déclaration en question n’a pas été diffusée avant le 6 novembre et que le point d’inflexion suspect de la consultation s’était produit un jour plus tôt (voir le marqueur sur la photo ci-dessus). En outre, Comey n’a pas expliqué la baisse complètement au bon moment, il n’ya donc aucune raison logique que sa déclaration "tant pis" l'aurait stoppée (et encore moins retournée).
TED

2
Le problème avec 538 n’est pas tant son modèle que la qualité des données de sondage qui y sont entrées. Les données indiquent clairement qu'il ne s'agissait pas d'une erreur d'échantillonnage (ce qui est assez petit lorsque vous faites la moyenne des sondages dont la taille de l'échantillon est correcte). washparkprophet.blogspot.com/2016/11/what-polls-got-wrong.html Au lieu de cela, le problème est soit un échantillonnage biaisé dans la part du lion des sondages, soit un mensonge systémique de la part des répondants (en raison de la désapprobation sociale de Trump), ou tous les deux. Mais 538 se félicitent d'avoir reconnu dans leur modèle que les sondages dans différents États n'étaient pas indépendants.
Ohwilleke

@ohwilleke - D'accord. Comme l’a dit l’une des autres réponses, GIGO. C'est ce que j'ai pensé qu'il se passait probablement avec cet étrange point d'inflexion inexpliqué. La question est la source de la "poubelle" dans les sondages d'entrée.
TED

17

D'abord c'était le Brexit, maintenant les élections américaines

Ce n’est pas vraiment une première, par exemple l’ élection présidentielle française de 2002 "a donné lieu à de sérieuses discussions sur les techniques de vote".

Il n’est donc pas exagéré de dire que ces modèles n’ont pas fait un très bon travail.

Garbage in, garbage out.

J'ai vu une explication à ce que les électeurs ne voulaient pas s'identifier en tant que partisans de Trump. Comment un modèle pourrait-il incorporer de tels effets?

Voir biais de réponse , et en particulier biais de désirabilité sociale . Autres lectures intéressantes: majorité silencieuse et effet Bradley .


2
Bien sûr, les ordures à la poubelle. Mais comment reconnaît-on que les prédicteurs étaient des ordures et fait une "sélection variable" pour s'en sortir?
HoraceT

6
@horaceT comme vous pouvez le voir, c'est très difficile et parfois impossible. FiveThirtyEight.com avait une méthodologie très décente et un modèle de haute qualité, utilisant diverses données et corrigeant les biais multiples. La veille des élections, il y avait 71,4% de chances que Hilary Clinton gagne ...
Tim

1
@horaceT Je me concentrerais sur la collecte de données, puisque cela semble être le problème. La page de biais de désirabilité sociale contient quelques idées pour l’améliorer.
Franck Dernoncourt

1
@horaceT en outre, si presque chaque groupe disait que Clinton n'est qu'un leader, ce serait un fou qui dirait qu'ils ont tous tort. Il serait très difficile de justifier un tel modèle.
Tim

1
Je serais curieux de savoir quelle est la précision des prévisions des sondages concernant la participation électorale (par exemple, sur la base de données démographiques). J'imagine que si de nombreux sondages prévoyaient une "avance significative", le taux de participation pourrait être supprimé (similaire à un effet d'observateur )?
GeoMatt22

12

Le sondage USC / LA Times contient des chiffres précis. Ils ont prédit que Trump serait en tête. Voir Le sondage USC / LA Times a révélé ce que d’autres enquêtes n’avaient pas fait: une vague d’appui de Trump

http://www.latimes.com/politics/la-na-pol-usc-latimes-poll-20161108-story.html

entrez la description de l'image ici

Ils avaient aussi des chiffres précis pour 2012.

Vous pouvez consulter: http://graphics.latimes.com/usc-presidential-poll-dashboard/

Et le NY Times s'est plaint de leur pondération: http://www.nytimes.com/2016/10/13/upshot/how-one-19-year-old-illinois-man-is-distorting-national-polling-averages. html

Réponse du LA Times: http://www.latimes.com/politics/la-na-pol-daybreak-poll-questions-20161013-snap-story.html


26
Lors de ce sondage, Trump avait remporté le vote populaire de 3,2%, mais Clinton semble avoir gagné par 0,1%. Donc, je ne vois pas comment vous pouvez dire qu'ils avaient des chiffres exacts.
Winston Ewert

3
Juste une petite remarque - vous attendriez-vous vraiment à ce qu'une statistique se situe à moins de 3,2% d'une fenêtre d'erreur?
AnoE

9
Les problèmes avec ce sondage, par exemple, sont 1) Son interroger la mauvaise chose. Le vote populaire est corrélé à la conquête de la présidence, mais ce n'est pas ainsi que le décide. 2) Il s'est trompé dans la ligne du dessus . Clinton a gagné ce qu'elle mesure, pas Trump. 3) La plupart des autres sondages étaient dans les mêmes points, mais dans une direction différente.
TED

5
... en fait, il semblerait que Clinton pourrait avoir à peu près un point d'avance sur Trump dans le vote populaire, ce qui signifie que ce sondage avait été déclenché par 4 voix au lieu de 3. Donc en théorie, un sondage similaire avec une victoire de 3 points aurait été deux fois plus précis que celui-ci (avec seulement 2 points au lieu de 4).
TED

8
Le sondage du Los Angeles Times était correct par accident : le sur-pondéré de 19 ans contrebalançait le vote rural blanc sous-pondéré.
Mark

11

Aucun haut terrain revendiqué ici. Je travaille dans un domaine (suivi et évaluation) aussi riche en pseudo-sciences que toute autre science sociale que vous pourriez nommer.

Mais voici le marché, l'industrie des sondages est supposément en "crise" aujourd'hui parce qu'elle a faussé les prévisions électorales américaines, les sciences sociales en général ont une "crise" de réplicabilité et à la fin des années 2000, nous avons eu une "crise" financière mondiale parce que certains praticiens pensaient que les dérivés hypothécaires sub-prime constituaient une forme valable de données financières (si on leur donnait le bénéfice du doute ...).

Et nous ne faisons que gaffer quand même. Tous les jours, je vois les concepts de chercheur les plus discutables utilisés en tant qu’approches de collecte de données, et donc finalement utilisés en tant que données (de l’échelle quasi-ordinale aux catégories de réponses fixes les plus avancées). Très peu de chercheurs semblent même se rendre compte qu'ils ont besoin d'un cadre conceptuel pour de tels concepts avant de pouvoir espérer comprendre leurs résultats. C'est comme si nous avions examiné les approches des «études de marché» et décidé d'adopter uniquement la pire de leurs erreurs, avec en plus un peu de numérologie.

Nous voulons être considérés comme des «scientifiques», mais la rigueur est un peu trop difficile à gêner. Nous collectons donc des données erronées et prions le dieu de la statistique, semblable à Loki, de renverser par magie l'axiome du GIGO.

Cependant, comme le souligne très fréquemment M. Feynman:

«Peu importe la beauté de votre théorie, peu importe votre intelligence. Si cela ne correspond pas à l'expérience, c'est faux ».

Il existe de meilleures façons de traiter les données qualitatives qui nous sont souvent bloquées, mais elles nécessitent un peu plus de travail et ces belles constructions de chercheur sont souvent plus faciles à intégrer à SPSS. La commodité semble l'emporter à chaque fois sur la science (sans jeu de mots).

En bref, si nous ne commençons pas à nous préoccuper de la qualité des données brutes, je pense que nous ne faisons que perdre du temps et de l’argent à tout le monde, y compris le nôtre. Alors, est-ce que quelqu'un veut collaborer à une «initiative sur la qualité des données» en relation avec les méthodes en sciences sociales (oui, il y a beaucoup de manuels dans ce domaine, mais personne ne semble prêter attention à cette source après leurs examens).

Celui qui a la gravitas la plus académique devient le leader! (Ce ne sera pas moi.)

Soyons clairs sur ma réponse: je vois si souvent des problèmes fondamentaux liés aux types de données brutes «artificielles» que je voudrais suggérer la nécessité de commencer par le début. Ainsi, avant même de nous préoccuper de l'échantillonnage ou des tests à exécuter sur les données, nous devons examiner la validité / les limites des types de données que nous collectons par rapport aux modèles que nous proposons. Sinon, le modèle prédictif global est incomplètement défini.


2
Pouvez-vous donner des exemples de constructions de chercheurs discutables?
HoraceT

4
Je ne suis pas nécessairement en désaccord avec beaucoup de vos points. Mais je tiens simplement à souligner que dans le cas des sondages, je pense que chaque sondeur est extrêmement conscient des limitations dues à la qualité des données, mais ne dispose pas vraiment d'options pour l'améliorer (voir ma réponse). Votre réponse semble penser que les sondeurs veulent pousser toute réponse, ne pas se soucier du tout de la qualité des données. Je pense que les sondeurs accordent beaucoup d’importance à la qualité des données, mais réalisent aussi que tout ce qu’ils peuvent obtenir a de graves défauts potentiels. Abandonnez-vous ("50% -50%!") Ou essayez-vous de construire quelque chose qui pourrait être raisonnable?
Cliff AB

ma réponse aux commentaires était nécessairement un peu longue, alors l'ajouta comme nouvelle réponse
colin

9

Les sondages ont tendance à avoir une marge d'erreur de 5% que vous ne pouvez pas vraiment éliminer, car ce n'est pas une erreur aléatoire, mais un biais. Même si la moyenne de nombreux sondages est moyenne, la situation ne s'améliore guère. Cela concerne les groupes d'électeurs mal représentés, le manque de mobilisation, l'impossibilité de se rendre au vote un jour ouvrable, la réticence à répondre, la réticence à répondre correctement , les décisions spontanées de dernière minute, ... parce que ce biais a tendance à être "corrélé" Dans les sondages, vous ne pouvez pas vous en débarrasser avec plus de sondages; vous ne pouvez pas non plus vous en débarrasser avec des échantillons de plus grande taille; et vous ne semblez pas non plus être en mesure de prédire ce biais, car il change trop vite (et nous élisons les présidents trop rarement).

En raison du principe du vainqueur stupide toujours présent dans presque tous les États, une erreur de 5% peut donner des résultats très différents: Supposons que les sondages prédisent toujours 49-51, mais le résultat réel est 51-49 (erreur de seulement 2%), le résultat est 100% de réduction; à cause de gagnant-prend-tout-tout.

Si vous examinez des états individuels, la plupart des résultats se situent dans les marges d'erreur prédites!

Le mieux que vous puissiez faire est probablement d’échantillonner ce biais (+ -5%), d’appliquer les extrêmes du vainqueur, puis d’agréger les résultats. Ceci est probablement similaire à ce que 538 a fait; et dans 30% des échantillons, Donald Trump a gagné ...


9
J'appelle cela le "principe de la frange lunatique" du sondage: dans toute question d'enquête, 5% des répondants donneront une réponse folle. Comme tout principe empirique, il a des exceptions, mais il résiste bien depuis des décennies pour donner un sens aux résultats des sondages.
whuber

1
Si ce n'était qu'une réponse "folle". Le problème est que c'est systématique et non "aléatoire fou". Vous pourriez considérer l'élection comme un sondage binaire et à quelles "réponses folles" pouvez-vous vous attendre en binaire? Mais apparemment, beaucoup de gens donnent délibérément (?) Une mauvaise réponse, ou prennent une décision différente lorsqu'ils se
Anony-Mousse

3
@ Anony-Mousse, quelle que soit sa précision, je ne vois pas en quoi la calligraphie juvénile est pertinente pour l'analyse statistique.
Jared Smith

Oh, c'est une histoire sans prix. Certains jours, vous devez rire, plutôt que de vous inquiéter, pourquoi les résultats des prévisions sont inexacts.
Anony-Mousse

Les commentaires ne sont pas pour une discussion prolongée; cette conversation a été déplacée pour discuter .
gung - Rétablir Monica

7

400,000

En fin de compte, il a révélé un échec colossal de l'analyse numérique pour compenser le manque de connaissances sur le sujet. Les gens avaient honte d’embrasser explicitement le candidat gagnant pour des raisons évidentes.

Le pire modèle informatique aurait pu se rapprocher du résultat si quelqu'un s'était donné la peine de mener un sondage préliminaire face à face en frappant à la porte. Voici un exemple: le groupe Trafalgar (pas d’affiliation ni de connaissances autres que ce qui suit) avait conduit Trump en PA, FL, MI, GA, UT et NV (ce dernier État était finalement devenu bleu) le jour précédant les élections. Quelle était la magie?

une combinaison de répondants à un test de vote standard et à un test de vote indiquant le voisinage des personnes interrogées. Cela répond aux préjugés sous-jacents aux sondages traditionnels, dans lesquels les répondants ne sont pas totalement véridiques quant à leur position à l’égard des candidats très controversés.

Assez bas-tech, y compris le manque de vérification orthographique, montrant beaucoup en chiffres sur la nature humaine. Voici la différence en PA :

entrez la description de l'image ici

La Pennsylvanie historique - si loin d'être perçue comme la dernière pierre de la défaite des démocrates quelques heures avant cette réalisation finale à 9h40 le 9 novembre 2016:

entrez la description de l'image ici


2
Poser des questions sur l’intention de vote des voisins est génial - c’est à mon sens une de ces astuces parfois utilisées dans les statistiques, qui permet de corriger (au moins dans une certaine mesure) un biais apparemment désespéré. Merci d'avoir écrit à ce sujet, très intéressant!
DeltaIV

5

L’une des raisons de l’inexactitude des sondages lors des élections américaines est que, même si certaines personnes ne disent pas la vérité, c’est que l’effet "vainqueur prend tout" rend les prévisions encore plus faciles. Une différence de 1% dans un État peut entraîner le changement complet d'un État et influer très lourdement sur le résultat final. Hillary a eu plus d'électeurs, tout comme Al Gore vs Bush.

Le référendum sur le Brexit n’était pas une élection normale et était donc également plus difficile à prévoir (aucune donnée historique valable et tout le monde était comme un premier votant sur cette question). Les gens qui votent pour le même parti pendant des décennies stabilisent les prévisions.


2
Très bonne observation. Il y avait des états clairs pour chaque côté et des états oscillants. Bien que leur nombre soit faible, l’effet sur un petit changement est grand en nombre de voix. Aux États-Unis, il s'agit d'un système électoral très compliqué et développé historiquement.
Trilarion

4

(Répondez simplement à cette question, car les autres réponses semblent avoir couvert tout le reste.)

Hier encore, à 16 heures, heure normale des Rocheuses, les marchés des paris étaient encore favorables à Hillary 4 contre 1. Je suppose que les marchés des paris, avec de l'argent réel en jeu, devraient constituer un ensemble de tous les modèles de prédiction disponibles.

Non ... mais indirectement oui.

Les marchés de paris sont conçus pour que les bookmakers réalisent un bénéfice quoi qu’il arrive. Par exemple, les cotes actuelles étaient de 1 à 4 sur Hilary et de 3 à 1 sur Trump. Si les dix prochaines personnes parient toutes 10 $ sur Hilary, alors ces 100 $ pris leur coûteront 25 $ si Hilary gagne. Alors ils raccourcissent Hilary à 1-5 et élèvent Trump à 4-1. Plus de gens parient maintenant sur Trump et l'équilibre est rétabli. C'est-à-dire que c'est purement basé sur la façon dont les gens parient, pas sur les experts ou les modèles de prédiction.

Mais, bien sûr, les clients des bookmakers regardent ces sondages et écoutent ces experts. Ils apprennent qu'Hilary a 3% d'avance sur lui et qu'il est un vrai vainqueur, et décident qu'un moyen rapide de gagner 10 $ consiste à parier 40 $ sur elle.

Indirectement, les experts et les sondages déplacent les chances.

(Certaines personnes remarquent également que tous leurs amis au travail vont voter Trump, alors pariez sur lui; d'autres notent que tous les messages de leurs amis sur Facebook sont pro-Hilary, alors pariez sur elle, pour qu'il y ait un peu d'influence sur la réalité eux, de cette façon.)


2

Il n’est pas étonnant que ces efforts aient échoué lorsque l’on considère la disparité entre les informations auxquelles les modèles ont accès et celles qui déterminent le comportement dans l’isoloir. Je spécule, mais les modèles prennent probablement en compte:

  • une variété de résultats de sondages préélectoraux
  • tendances historiques (bleu / rouge)
  • Résultats historiques des élections précédentes avec les tendances / projections actuelles

Cependant, les sondages pré-électoraux ne sont pas fiables (nous avons vu des échecs constants dans le passé), les États peuvent basculer et il n'y a pas eu suffisamment de cycles électoraux dans notre histoire pour rendre compte de la multitude de situations qui peuvent et peuvent se produire .

Une autre complication est la confluence du vote populaire avec le collège électoral. Comme nous l'avons vu lors de cette élection, le vote populaire peut être extrêmement serré au sein d'un État, mais une fois l'État gagné, tous les votes sont attribués à un seul candidat, c'est pourquoi la carte est si rouge.


1

Les modèles de sondage ne tenaient pas compte du nombre de libertaires susceptibles de passer de Johnson à Trump lorsqu'il s'agirait de voter. Les États qui ont été gagnés par une faible marge ont été gagnés en fonction du pourcentage du vote obtenu par Johnson. PA (qui a poussé Trump au-delà de 270 le soir de l'élection) n'a donné que 2% à Johnson. NH (qui est allé à Clinton) a donné 4% + à Johnson. Johnson était en train de voter entre 4% et 5% la veille des élections et il en a obtenu environ 3% le jour de l'élection.

Alors pourquoi les libertariens ont-ils soudainement basculé le jour de l'élection? Personne n'a considéré quelle était la question centrale pour les électeurs libertaires. Ils ont tendance à considérer l'interprétation littérale de la Constitution comme canonique. La plupart des gens qui ont voté pour Clinton ne pensaient pas que son caractère irrespectueux de la loi était une priorité suffisamment élevée pour être prise en compte. Certainement pas plus haut que tout ce qui n’a pas plu à Trump.

Peu importe que ses problèmes juridiques soient importants ou non pour les autres, ils le seraient également pour les libertariens. Ils accordent une très grande priorité à ce que quelqu'un qui considère que la conformité légale soit au mieux facultative reste en dehors de son bureau. Ainsi, pour un grand nombre d'entre eux, maintenir Clinton au pouvoir deviendrait une priorité plus importante que d'affirmer que la philosophie libertaire est une philosophie politique viable.

Beaucoup d’entre eux n’auraient peut-être même pas aimé Trump, mais s’ils pensaient qu’il respecterait davantage l’état de droit que Clinton, le pragmatisme aurait conquis les principes de beaucoup d’entre eux et les aurait incités à changer de vote quand est venu le temps de voter.


NH a toutes les personnes du projet de l'État libre vivant là-bas. Parti libertaire en plein essor et partisans actifs.
Jean

@John, NH Les libertariens sont restés coincés avec Johnson (4%). Trump a perdu l'état de 1%.
Dmitry Rubanovich

Je comprends que. J'essayais d'expliquer que le parti libertaire est fort dans NH.
Jean

@ John, mais ce n'est pas seulement NH. Minnesota: Johnson 4%, Trump perdu de 2%; NV (un argument plus dur à faire, mais la tendance reste valable): Johnson 3,5%, Trump perdu de 2%; Maine: Johnson 5%, Trump perdu de 3%; Colorado Johnson 5%, Trump perdu de 3%.
Dmitry Rubanovich

Après tout, les sondages s'interrogent sur les possibilités de permutation de vote et les prévisions en tiennent compte. Avez-vous des informations suggérant qu'avant les élections, de telles informations n'étaient pas prises en compte par les prévisions ou s'agit-il d'une pure spéculation?
Tim

1

Les sondages ne sont pas des tendances historiques. Un bayésien s'enquiert des tendances historiques. Depuis Abraham Lincoln, un parti républicain et un parti démocrate ont occupé les fonctions présidentielles. La tendance des partis à changer 16 fois depuis Wikipédia a la fonction de masse cumulée suivante

entrez la description de l'image ici

x

Ce qui a poussé les journalistes, le parti démocrate et les sondeurs à penser que les chances étaient favorables à la victoire des libéraux était peut-être un voeu pieux. Le comportement peut être prévisible, dans certaines limites, mais dans ce cas, les démocrates souhaitaient que les gens ne votent pas pour un changement, et d'un point de vue historique, il semble plus probable qu'il y en ait un.


0

Je pense que les résultats des sondages ont été extrapolés au public en supposant que les données démographiques des électeurs seront similaires à celles des personnes interrogées et constitueraient une bonne représentation de l'ensemble de la population. Par exemple, si 7 minorités sur 10 ont soutenu Hillary dans les sondages, et si cette minorité représente 30% de la population américaine, la majorité des sondages ont supposé que 30% des électeurs seraient représentés par cette minorité, ce qui se traduirait par un gain de 21%. Hillary. En réalité, les hommes blancs de la classe moyenne à la classe supérieure étaient mieux représentés parmi les électeurs. Moins de 50% des personnes éligibles ont voté et cela ne s'est pas traduit par une réduction de 50% sur tous les genres, toutes les courses, etc.

Ou encore, les sondages supposaient une randomisation parfaite et fondaient leurs modèles sur cette dernière, mais en réalité, les données des électeurs étaient biaisées en faveur des hommes plus âgés de la classe moyenne à la classe supérieure.

Ou bien, les sondages ne supposaient pas une randomisation parfaite, mais leurs paramètres d'extrapolation sous-estimaient l'hétérogénéité de la démographie des électeurs.

ETA: Les sondages des deux élections précédentes ont eu de meilleurs résultats grâce à l'attention accrue portée aux votes par des groupes qui ne sont généralement pas bien représentés.


Autant que je sache, tous les sondages basent leurs prévisions sur des "électeurs probables". Je ne peux pas imaginer de sondage selon lequel un jeune de 20 ans a les mêmes chances de voter qu'un jeune de 70 ans. Le problème semble plus central: quelle est la probabilité que quelqu'un vote?
Dimpol

La comptabilisation des données démographiques est la partie la plus facile. Vous venez de repondérer votre échantillon de population à la population réelle. Tenir compte de la participation électorale et des préjugés mentionnés dans les autres réponses est toutefois beaucoup plus difficile.
Graipher

Il y a beaucoup de variété dans la manière dont les enquêteurs traitent ces questions. Certains rééquilibrent ou rééquilibrent démographiquement en fonction de l'appartenance à un parti, d'autres non. Mais, comme il existe des variations dans les modèles utilisant les moyennes des sondages, le résultat final devrait être robuste aux problèmes particuliers à une méthode de calcul qui ne sont pas partagés par d’autres sondages, en particulier après avoir pris en compte les biais partisans historiques (à savoir les effets internes) de particuliers. opérations de vote. Les problèmes rencontrés dans les résultats de sondage moyens doivent provenir de méthodes ou d'effets partagés, et non de méthodes propres à chaque sondage.
ohwilleke

0

HoraceT et CliffAB (excusez-moi trop de temps pour les commentaires) Je crains d'avoir toute une vie d'exemples, qui m'ont aussi appris que je dois faire très attention à leurs explications si je veux éviter d'offenser les gens. Donc, même si je ne veux pas de votre indulgence, je vous demande votre patience. Voici:

Pour commencer par un exemple extrême, j’ai déjà vu une question de sondage proposée demandant à des agriculteurs villageois analphabètes (Asie du Sud-Est) d’estimer leur «taux de rentabilité économique». Laissant de côté les options de réponse pour le moment, nous pouvons espérer que tout le monde comprendra que c'est une chose stupide à faire, mais il n'est pas si facile d'expliquer systématiquement pourquoi c'est stupide. Oui, nous pouvons simplement dire que c'est stupide parce que l'intimé ne comprendra pas la question et ne la rejetera pas comme une question sémantique. Mais cela n’est vraiment pas suffisant dans un contexte de recherche. Le fait que cette question ait jamais été suggérée implique que les chercheurs ont une variabilité inhérente à ce qu'ils considèrent comme «stupide». Pour aborder cette question de manière plus objective, nous devons prendre du recul et déclarer de manière transparente un cadre pertinent pour la prise de décision en la matière. Il y a beaucoup de telles options,

Supposons donc de manière transparente que nous avons deux types d’informations de base que nous pouvons utiliser dans les analyses: qualitatif et quantitatif. Et que les deux sont liés par un processus de transformation, de telle sorte que toutes les informations quantitatives sont au départ des informations qualitatives, mais passent par les étapes suivantes (simplifiées à l'extrême):

  1. Cadre de la convention (par exemple, nous avons tous décidé que [indépendamment de la façon dont nous le percevons individuellement], nous appellerions tous la couleur «ciel bleu» de la journée.)
  2. Classification (par exemple, nous évaluons tout ce qui se trouve dans une pièce selon cette convention et séparons tous les éléments en catégories «bleue» ou «non bleue»)
  3. Compter (nous comptons / détectons la «quantité» de choses bleues dans la pièce)

Notez que (sous ce modèle) sans l'étape 1, la qualité n'existe pas et si vous ne commencez pas à l'étape 1, vous ne pouvez jamais générer une quantité significative.

Cela dit, tout cela semble évident, mais ce sont de tels ensembles de principes premiers que (je trouve) qui sont le plus souvent négligés et qui aboutissent donc à un "Garbage-In".

Ainsi, la «stupidité» de l'exemple ci-dessus devient très clairement définissable comme un échec dans l'établissement d'une convention commune entre le chercheur et les répondants. Bien sûr, ceci est un exemple extrême, mais des erreurs beaucoup plus subtiles peuvent également générer des déchets. Un autre exemple que j’ai vu est une enquête menée auprès d’agriculteurs de zones rurales somaliennes, dans laquelle il était écrit: «En quoi le changement climatique a-t-il affecté votre gagne-pain?» les États-Unis constitueraient un grave manquement à l'utilisation d'une convention commune entre le chercheur et le répondant (c'est-à-dire en ce qui concerne ce que l'on appelle le "changement climatique").

Passons maintenant aux options de réponse. En permettant aux répondants d'auto-coder les réponses à partir d'un ensemble d'options à choix multiples ou d'une construction similaire, vous insérez également ce problème de «convention» dans cet aspect du questionnement. Cela peut convenir si nous nous en tenons tous à des conventions "universelles" dans les catégories de réponses (par exemple, question: dans quelle ville habitez-vous? Catégories de réponses: liste de toutes les villes du domaine de recherche [plus "pas dans ce domaine"]). Cependant, de nombreux chercheurs semblent en réalité être fiers de la nuance subtile de leurs questions et de leurs catégories de réponses pour répondre à leurs besoins. Dans la même enquête où apparaissait la question du "taux de rentabilité économique", le chercheur a également demandé aux répondants (villageois pauvres) d'indiquer à quel secteur économique ils contribuaient: avec les catégories de réponses "production", "service", «fabrication» et «marketing». Là encore, un problème de convention qualitative se pose évidemment ici. Cependant, comme il avait fait des réponses mutuellement exclusives, de telle sorte que les répondants ne pouvaient choisir qu’une seule option (parce que «c’est plus facile d’alimenter SPSS de cette façon»), les agriculteurs des villages produisent régulièrement des cultures, vendent leur travail, fabriquent de l’artisanat et Les marchés locaux eux-mêmes, ce chercheur en particulier n’avait pas seulement un problème de convention avec ses répondants, il en avait un avec la réalité elle-même.

C’est la raison pour laquelle les anciens sondeurs, comme moi, recommanderont toujours l’application de la codification à la post-collecte des données, qui demande beaucoup plus de travail. En effet, vous pouvez au moins former les codeurs aux conventions tenues par les chercheurs (et noter que tenter Les instructions de l'enquête "est un jeu de mug - juste moi confiance sur celui-ci pour le moment). Notez également que si vous acceptez le «modèle d'information» ci-dessus (ce que, encore une fois, je ne prétends pas que vous devez le faire), cela montre également pourquoi les échelles de réponse quasi-ordinales ont une mauvaise réputation. Selon la convention de Steven, il n’ya pas que les problèmes mathématiques de base (c’est-à-dire que vous devez définir une origine significative même pour les ordinaux, vous ne pouvez pas les ajouter et les faire la moyenne, etc.), c'est aussi qu'ils n'ont souvent jamais connu un processus de transformation déclaré logiquement et logiquement cohérent qui constituerait une "quantification" (c'est-à-dire une version étendue du modèle utilisé ci-dessus qui inclut également la génération de "quantités ordinales" [- ce n'est pas difficile faire]). Quoi qu’il en soit, s’il ne répond pas aux exigences d’informations qualitatives ou quantitatives, le chercheur prétend en fait avoir découvert un nouveau type d’informations en dehors du cadre. Il incombe donc à ces derniers d’expliquer pleinement son fondement conceptuel fondamental ( c'est-à-dire définir de manière transparente un nouveau cadre).

Enfin, examinons les problèmes d’échantillonnage (et je pense que cela concorde avec certaines des réponses déjà données ici). Par exemple, si un chercheur souhaite appliquer une convention définissant ce qu'est un électeur «libéral», il doit s'assurer que les informations démographiques qu'il utilise pour choisir son régime d'échantillonnage sont conformes à cette convention. Ce niveau est généralement le plus facile à identifier et à traiter car il est en grande partie sous le contrôle du chercheur et constitue le plus souvent le type de convention qualitative supposée qui est déclaré de manière transparente dans la recherche. C'est aussi la raison pour laquelle c'est le niveau habituellement discuté ou critiqué, alors que les problèmes les plus fondamentaux ne sont pas résolus.

Ainsi, bien que les sondeurs s'en tiennent à des questions telles que «pour qui envisagez-vous de voter à ce moment-là?», Nous sommes probablement toujours d'accord, mais nombre d'entre eux souhaitent devenir beaucoup plus «fantaisistes» que cela…

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.