Score au carré du renseignement et détermination du gagnant


12

Il existe un podcast NPR appelé Intelligence Squared. Chaque épisode est la diffusion d'un débat en direct sur une déclaration litigieuse telle que "Le 2e amendement n'est plus pertinent" ou "L'action positive sur les campus universitaires fait plus de mal que de bien". Quatre représentants débattent - deux pour la motion et deux contre.

Pour déterminer quelle équipe gagne, le public est sondé avant et après le débat. L'équipe qui a gagné le plus en termes de pourcentage absolu est considérée comme gagnante. Par exemple:

          For    Against  Undecided
 Before   18%      42%       40%
 After    23%      49%       28%

 Winner: Against team -- The motion is rejected.

Intuitivement, je pense que cette mesure du succès est biaisée et je me demande comment on pourrait interroger le public pour déterminer le gagnant de manière équitable.

Trois problèmes que je vois immédiatement avec la méthode actuelle:

  • Aux extrêmes, si un côté commence avec un accord à 100%, ils ne peuvent que nouer ou perdre.

  • S'il n'y a pas d'indécis, alors le côté avec le moins d'accord initial peut être considéré comme ayant une plus grande taille d'échantillon à partir de laquelle puiser.

  • Le côté indécis n'est pas susceptible d'être vraiment indécis. Si nous supposons que les deux côtés sont également polarisés, il semble que notre croyance antérieure concernant la population indécise devrait être si chacun était forcé de prendre parti .Beta(# For,# Against)

Étant donné que nous devons nous fier aux sondages d'audience, existe-t-il un moyen plus juste de juger qui gagne?


1
Je pense que quelque chose comme le "Pour-Contre-Après" divisé par le "Pour-Contre-Avant" (essentiellement un rapport de cotes) serait un meilleur choix. Si elle est supérieure à 1, vous avez amélioré les chances, si elle est inférieure à 1, vous ne l'avez pas fait.
Glen_b -Reinstate Monica

C'était aussi ma pensée initiale, même si je l'ai formulée en pourcentage de gain. Je ne sais tout simplement pas comment prouver qu'il s'agit d'une estimation impartiale.
Wesley Tansey

Une estimation impartiale de quoi? Je ne suis pas sûr que l'impartialité soit une propriété particulièrement souhaitable pour cela.
Glen_b -Reinstate Monica

De la façon dont chaque côté a fait Idéalement, nous ne voudrions pas biaiser le résultat en fonction de la réponse initiale de la foule. Ou je pense peut-être à cela complètement faux ...
Wesley Tansey

Ah, je pense que nous utilisons le biais d'une manière légèrement différente. Que ma suggestion soit biaisée en ce sens dépend de ce que vous essayez de mesurer exactement . Selon une mesure populaire, il traite parfaitement ce problème.
Glen_b -Reinstate Monica

Réponses:


10

Vos préoccupations sont bien fondées. Malheureusement, il existe de nombreuses façons objectives et défendables de régler ce problème et elles peuvent entrer en conflit les unes avec les autres. L'analyse suivante fournit un cadre pour décider de la manière dont vous souhaitez évaluer le résultat et montre à quel point vos conclusions dépendent des hypothèses que vous faites sur la dynamique de la situation.


Nous avons peu ou pas de contrôle sur le public initial. Il pourrait ne pas représenter une population plus importante (comme tous les téléspectateurs) qui nous intéresse davantage. Par conséquent, le nombre absolu d'opinions est peu pertinent: ce qui compte, ce sont les taux auxquels les gens pourraient changer d'avis. (À partir de ces taux, nous pourrions estimer la manière dont la population d'écoute pourrait changer, compte tenu des informations sur leurs opinions initiales, même lorsque les proportions d'opinions dans l'audience d'écoute diffèrent de l'audience de studio interrogée.)

Le résultat consiste donc en six changements d'opinion possibles et six taux de changement associés:

  • Ceux "pour", que je vais indexer avec peuvent changer d'avis et se retrouver soit contre (avec l'index ) au taux ou indécis (avec l'index ) au taux .2 a 12 3 a 131,2a123a13

  • Ceux "contre" peuvent changer d'avis en "pour" au taux ou "indécis" au taux . un 23a21a23

  • Les indécis peuvent changer d'avis sur "pour" au taux ou "contre" au taux a 32 .a31a32.

Définissez , pour la proportion de personnes de l'indice ne changent pas d'avis. i = 1 , 2 , 3 , iaiii=1,2,3,i

Les colonnes de la matrice contiennent des nombres non négatifs qui doivent s'ajouter à l'unité (en supposant que tous ceux qui répondent au sondage initial répondent également au dernier). Cela laisse six valeurs indépendantes à déterminer en fonction de la transition de la distribution initiale dans l'audience, , à la distribution finale . Il s'agit d'un système sous-déterminé d'équations linéaires (contraintes), laissant une énorme flexibilité pour dériver une solution. Regardons trois solutions.x = ( 0,18 , 0,42 , 0,40 ) y = ( 0,23 , 0,49 , 0,28 ) = A xA=(aij)x=(0.18,0.42,0.40)y=(0.23,0.49,0.28)=Ax

Solution 1: moindre changement

On pourrait demander que la matrice de transition soit aussi petite que possible dans un certain sens. Une façon consiste à minimiser la proportion totale de personnes qui changent d'opinion. Ceci est accompli dans l'exemple avec la solutionA

A=(100.125010.175000.700).

Autrement dit, des indécis se sont retrouvés pour, d'entre eux se sont retrouvés contre, et aucun des fors ou contre d'origine n'a changé d'avis. Qui a gagné? Les contre, évidemment, parce que le débat a persuadé une plus grande partie des indécis de se contenter de l'opinion "contre".17,5 %12.5%17.5%

Ce modèle serait approprié lorsque vous croyez que les factions initiales sont endurcies à leurs opinions et que les seules personnes susceptibles de changer d'avis sont parmi celles initialement déclarées indécises.

Solution 2: les moindres carrés

Une solution mathématiquement simple consiste à trouver la matrice dont la norme au carré est aussi petit que possible: cela minimise la somme des carrés des neuf probabilités de transition (qui incluent l' représentant les proportions qui ne changent pas d'avis). Sa solution (arrondie à deux décimales) estL 2 | | A | | 2 2 = t r ( AA ) a i iAL2||A||22=tr(AA)aii

A=(0.280.220.220.410.510.500.310.270.28).

En comparant les rangées, nous voyons que bien que du côté "contre" aient été persuadés de se convertir en "pour" (et étaient suffisamment confus pour devenir indécis), du côté "pour" étaient entièrement convertis (et supplémentaires ont été confondus). Les indécis d'origine avaient tendance à se convertir du côté «contre» ( contre ). Désormais, "contre" est clairement le vainqueur.27 % 41 % 31 % 50 % 22 %22%27%41%31%50% 22%

La solution des moindres carrés pose généralement beaucoup de changements dans chaque groupe. (Sous réserve des contraintes du problème, il essaie de rendre les changements tous égaux à .) Il est difficile de déterminer s'il correspond à une représentation réaliste de la population, mais il présente une image mathématiquement possible de ce qui s'est passé. pendant le débat.1/3

Solution 3: les moindres carrés pénalisés

Pour contrôler et limiter la vitesse à laquelle les gens changent d'opinion, pénalisons l'objectif des moindres carrés en incluant des termes qui ne favorisent aucun changement d'opinion. Ce sont les termes sur la diagonale de . On pourrait supposer qu'il est plus difficile de changer l'opinion de quelqu'un qui n'est pas indécis, il serait donc bon de pondérer ce dernier. À cette fin, introduisez des poids positifs et trouvez pour lequel est minimisé.AωiA

||A||22ω1a11ω2a22ω3a33

Par exemple, diminuons de 50% les indécis en sélectionnant les poids . La solution (arrondie) estω=(1,1,1/2)

A=(0.9100.170.030.930.230.060.070.60).

Cette solution est intermédiaire entre les deux premières: une faible proportion des parties engagées ont changé d'avis ou sont devenues indécises tandis que des indécis ont pris une décision ( pour et contre). Encore une fois, cependant, les résultats favorisent clairement la faction "contre".40%17%23%

Sommaire

Dans ce modèle de transition de changement d'opinion, la plupart des méthodes de solution indiquent une victoire pour le côté «contre» dans cet exemple particulier. En l'absence d'opinions fortes sur la dynamique du changement, cela suggère que le camp "contre" a gagné.

Dans d'autres circonstances, certaines méthodes de solution peuvent indiquer un gagnant et d'autres méthodes de solution un autre gagnant. Par exemple, dans la transition de à il semble naïvement que les "fors" ont remporté une victoire spectaculaire: leur nombre est passé de à tandis que la faction "contre" est passée de à . Cependant, la solution des moindres carrés (arrondis) suggère au moins qu'il existe un moyen pour que cela se produise dans lequel le débat a légèrement favorisé l'autre côté! Il est(.20,.60,.20)(.30,.40,.30)20%30%40%30%

A=(0.320.290.320.360.420.360.320.290.32).

Ici, des "fors" sont passés de l'autre côté alors que seulement des "contre" ont changé d'avis contraire. De plus, un peu plus d'indécis contre ) se sont prononcés "contre" plutôt que pour. Bien que leur nombre dans ce public ait diminué, nous avons une situation (qui rappelle le Paradoxe de Simpson ) dans laquelle la faction "contre" a clairement gagné le débat!36%29%(36%) 32%

Commentaires supplémentaires

Si les sondages d'opinion pouvaient suivre les individus avant et après, nous pourrions estimer l'ensemble de la matrice de transition et il y aurait beaucoup moins d'incertitude quant aux effets du débat sur l'opinion publique.A

Les trois méthodes de solution illustrées ici ne sont pas les seules possibles: d'autres pourraient être trouvées en pondérant les coefficients de individuellement, par exemple. Cependant, ils couvrent un large éventail de possibilités, allant de la solution parcimonieuse de «moindre changement» à la solution agressive des moindres carrés. Ainsi, l'exploration de la gamme de solutions obtenues avec ces trois méthodes devrait donner une bonne indication de ce qui pourrait raisonnablement être réalisé. S'ils s'entendent tous sur le résultat, cela ne devrait faire aucun doute.A


Merci pour le post détaillé! Je crains cependant que toutes ces méthodes ne tiennent pas compte de la possibilité que les indécis ne soient pas vraiment indécis.
Wesley Tansey

Ils ont la possibilité d'intégrer votre préoccupation au sujet de cette possibilité. Vous êtes toujours coincé avec la nécessité de faire des hypothèses (fortes): si vous pensez qu'elles ne sont pas vraiment décidées, vous devrez estimer quelle proportion est "pour" et quelle proportion "contre" (et ce serait une folie de supposer les proportions sont les mêmes que le nombre pour: nombre contre!) Une façon de contourner une telle estimation - ne serait-ce que pour voir à quoi pourrait ressembler le résultat - est de choisir une solution qui récompense le changement d'opinion d'une personne indécise.
whuber

En supposant que les deux côtés sont également polarisants, votre estimation MAP des personnes indécises ne serait-elle pas le rapport pour: contre?
Wesley Tansey

Dans la plupart des cas, il serait difficile de soutenir une telle hypothèse. Par exemple, les personnes moins informées peuvent avoir une plus grande tendance à être indécises - et ont également une plus grande tendance à favoriser éventuellement l'un des deux postes. L'effet d'une hypothèse "également polarisante" pourrait être si fort (surtout lorsqu'il y a une grande proportion d'indécis) au point de rendre l'analyse ultérieure hors de propos: les résultats seraient principalement une conséquence de cette hypothèse. Une réflexion productive pour vous pourrait consister à envisager de recueillir des informations supplémentaires sur les personnes indécises.
whuber

3

La question du biais semble ici être qu'une partie peut être favorisée pour gagner même si elle n'a pas de meilleures compétences de débat, plutôt que le concept statistique de biais d'un estimateur. Une approche naturelle serait de s'attaquer directement à ce problème: utiliser les données des concours précédents pour ajuster un modèle de régression et définissez la règle gagnante en fonction du sondage avant débat afin que la probabilité prédictive de gagner soit de

p(forafter,againstafter,undecidedafterforbefore,againstbefore,undecidedbefore)
0.5pour les deux équipes. Notez qu'il existe encore plusieurs choix pour la règle de décision car l'espace des résultats est bidimensionnel mais, si nous faisons confiance au modèle prédictif, cela n'a pas d'importance en termes d'équité du concours. On pourrait, par exemple, simplement décider que l'équipe pour l'emporte si le rapport Pour-Contre après le débat dépasse sa médiane prédictive (sous réserve du scrutin avant).

Idées pour construire un modèle prédictif

Au départ, je n'avais en tête qu'un modèle de "boîte noire" des nombres après sondage en fonction des nombres avant sondage et du bruit. Cependant, une meilleure approche pourrait être d'emprunter l'idée de whuber de considérer les probabilités de transition. L'approche la plus simple (mais peut-être pas réaliste) serait de considérer les probabilités de transition comme indépendantes des chiffres du sondage avant le débat. Par exemple, supposons que les probabilités de transition sont tirées des distributions de Dirichlet: Paaaaff=aaaafu=aau

(P(forfor before),P(udfor before),P(agfor before))Dir(aff,auf,aaf)(P(forud before),P(udud before),P(agud before))Dir(afu,auu,aau)(P(forag before),P(udag before),P(agag before))Dir(afa,aua,aaa),
où les s sont des probabilités de transition pour les individus et les s sont des hyperparamètres qui contrôlent comment le les probabilités de transition varient d'un débat à l'autre. L'PaaLes s sont tirés des données des expositions précédentes, soit en optimisant les estimations ponctuelles (par exemple, le maximum a posteriori ou le maximum de vraisemblance), soit une solution bayésienne complète qui produit une distribution postérieure du s. On pourrait également ajouter des contraintes de symétrie si l'on veut supposer pour et contre un comportement similaire (avant de connaître la question de débat particulière), par exemple, , .aaff=aaaafu=aau

Étant donné les distributions postérieures ou les estimations ponctuelles de s, et la distribution des individus dans le courant avant le scrutin (que je suppose maintenant indépendant des probabilités de transition), il est simple de simuler la distribution des nombres après le débat, puis choisissez la médiane, par exemple, pour / contre-ratio comme seuil de gain.a


Pourriez-vous développer l'idée d'un modèle prédictif avec un exemple?
Wesley Tansey

@WesleyTansey J'ai réalisé que l'on pouvait utiliser l'idée de whuber de considérer les probabilités de transition pour construire un modèle prédictif aux fins de ma réponse. J'ai édité ma réponse pour qu'elle contienne quelques idées initiales, mais je n'ai pas essayé de l'implémenter et je n'ai pas l'intention de le faire actuellement.
Juho Kokkala
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.