Comment pouvons-nous juger de l'exactitude des prédictions de Nate Silver?

Premièrement, il donne la probabilité des résultats. Ainsi, par exemple, ses prédictions pour les élections américaines sont actuellement de 82% pour Clinton contre 18% pour Trump.

Maintenant, même si Trump gagne, comment puis-je savoir que ce n'était pas seulement les 18% du temps qu'il aurait dû gagner?

L'autre problème est que ses probabilités changent avec le temps. Donc le 31 juillet, c'était presque un 50-50 entre Trump et Clinton.

Ma question est, étant donné qu'il a une probabilité différente chaque jour pour le même événement futur avec le même résultat, comment puis-je mesurer la précision avec laquelle il a fait chaque jour une prédiction basée sur les informations disponibles jusqu'à ce jour?

— Soupe aux dinosaures
source

Je suppose que nous ne pouvons pas. Il faut une norme d'or pour effectuer une telle évaluation, et la meilleure que nous ayons n'est que les observations des élections précédentes qui sont difficiles à comparer (car chaque élection comprendrait d'autres méthodes d'échantillonnage et le comportement des électeurs). Mais je ne suis pas un expert en sondages électoraux, donc je laisse cela comme un commentaire et non comme une réponse :)

— Tal Galili

@TalGalili: nous pouvons dire au moins quelque chose, en utilisant des règles de notation - tout comme, par exemple, nous pouvons dire quelque chose sur les paramètres inobservables que nous estimons dans les régressions.

— S.Kolassa - Rétablir Monica

Il s'agit probablement d'une «règle de notation», mais, pour n événements, multipliez sa probabilité que ces événements se produisent et prenez la nième racine pour obtenir une sorte de taux de prédiction moyen (nous supposons qu'il ne fait jamais de prédictions à 0%). Vous pouvez considérer chaque probabilité quotidienne comme une prédiction distincte.

— barrycarter

Pourquoi les probabilités ne peuvent-elles pas changer avec le temps? Lors d'un événement sportif, les chances ne changent-elles pas chaque fois qu'un but est marqué ou qu'un coup de circuit est frappé?

— Rodrigo de Azevedo

Le modèle de Silver donne bien plus qu'une simple estimation de probabilité - il donne une marge de victoire estimée, qui est dérivée des probabilités de victoire et des marges de victoire pour chacun des 50 états. Il s'agit donc de donner une estimation ponctuelle et une marge d'erreur pour 50 mesures différentes (bien qu'avec un certain degré de corrélation probablement élevé), et pas seulement de prédire un seul résultat binaire.

— Micah

Réponses:

Les prévisions probabilistes (ou, comme elles sont également connues, les prévisions de densité) peuvent être évaluées en utilisant des règles de notation , c'est -à- dire des fonctions qui mappent une prévision de densité et un résultat observé à un soi-disant score, qui est minimisé dans l'attente si la prévision de densité c'est en effet la véritable densité à prévoir. Les règles de notation correctes sont des règles de notation qui sont minimisées dans l'attente uniquement par la véritable densité future.

Il existe un certain nombre de règles de notation appropriées, à commencer par Brier (1950, Monthly Weather Review ) dans le contexte des prévisions météorologiques probabilistes. Czado et al. (2009, Biometrics ) donnent un aperçu plus récent du cas discret. Gneiting & Katzfuss (2014, Revue annuelle des statistiques et son application ) donnent un aperçu de la prévision probabiliste en général - Gneiting en particulier a été très actif pour faire avancer la cause de règles de notation appropriées.

Cependant, les règles de notation sont quelque peu difficiles à interpréter, et elles n'aident vraiment qu'à comparer plusieurs prévisions probabilistes - celle avec le score le plus bas est meilleure. Jusqu'à la variation d'échantillonnage, c'est-à-dire qu'il est toujours préférable d'avoir beaucoup de prévisions à évaluer, dont nous ferions la moyenne des scores.

Comment inclure la "mise à jour" des prévisions de Silver ou d'autres est une bonne question. Nous pouvons utiliser des règles de notation pour comparer des «instantanés» de différentes prévisions à un moment donné, ou nous pourrions même examiner les prévisions probabilistes de Silver au fil du temps et calculer des scores à chaque instant. On pourrait espérer que le score diminue de plus en plus (c'est-à-dire que les prévisions de densité s'améliorent de plus en plus) plus le résultat réel est proche.

— S. Kolassa - Rétablir Monica
source

Une autre façon de le dire: la probabilité individuelle prévue d'un événement unique ne peut pas être évaluée seule, mais les prévisionnistes peuvent être évalués (par des fonctions de score).

— kjetil b halvorsen

Pour "est minimisé dans l'attente", je pense que la question clé est l'attente sur quel ensemble? Prenons-nous toutes les prédictions de Nate Silver? Seulement ceux sur les élections présidentielles? Je ne sais pas s'il y a une seule réponse ici. Pour comparer différents prévisionnistes, les prévisions sur tout ensemble commun d'événements pourraient être raisonnables.

— GeoMatt22

@ GeoMatt22 - il a une méthodologie raisonnablement similaire pour d'autres élections, il peut donc être valable d'agréger toutes les prévisions électorales

— DVK

Dans le livre de Nate Silver, The Signal and the Noise, il écrit ce qui suit, ce qui peut éclairer votre question:

L'un des tests les plus importants d'une prévision - je dirais que c'est la plus importante - s'appelle l'étalonnage. Sur toutes les fois où vous avez dit qu'il y avait 40% de risque de pluie, à quelle fréquence la pluie s'est-elle réellement produite? Si, à long terme, il pleuvait vraiment environ 40% du temps, cela signifie que vos prévisions étaient bien calibrées. S'il finissait par pleuvoir seulement 20% du temps, ou 60% du temps, ce n'était pas le cas.

Cela soulève donc quelques points. Tout d'abord, comme vous le faites remarquer à juste titre, vous ne pouvez vraiment pas faire d'inférence sur la qualité d'une seule prévision par le résultat de l'événement que vous prévoyez. Le mieux que vous puissiez faire est de voir les performances de votre modèle au cours de nombreuses prévisions.

Une autre chose à laquelle il est important de penser est que les prédictions fournies par Nate Silver ne sont pas un événement en soi, mais la distribution de probabilité de l'événement. Donc, dans le cas de la course présidentielle, il estime la distribution de probabilité de la victoire de Clinton, Trump ou Johnson. Donc, dans ce cas, il estime une distribution multinomiale.

Mais il prédit en fait la course à un niveau beaucoup plus précis. Ses prédictions estiment les distributions de probabilité du pourcentage de votes que chaque candidat obtiendra dans chaque État. Donc, si nous considérons 3 candidats, cela pourrait être caractérisé par un vecteur aléatoire de longueur 51 * 3 et prenant des valeurs dans l'intervalle [0, 1], sous la contrainte que les proportions soient égales à 1 pour les proportions dans un état. Le nombre 51 est dû au fait que les autres sont 50 États + DC (et en fait, je pense que c'est en fait un peu plus parce que certains États peuvent partager leurs votes des collèges électoraux), et le nombre 3 est dû au nombre de candidats.

Maintenant, vous n'avez pas beaucoup de données pour évaluer ses prédictions - il n'a fourni que des prédictions pour les 3 dernières élections que je connais (y avait-il plus?). Je ne pense donc pas qu'il existe un moyen d'évaluer équitablement son modèle, à moins que vous n'ayez réellement le modèle en main et que vous puissiez l'évaluer à l'aide de données simulées. Mais il y a encore des choses intéressantes que vous pourriez regarder. Par exemple, je pense qu'il serait intéressant de voir avec quelle précision il a prédit les proportions de vote État par État à un moment donné, par exemple une semaine après les élections. Si vous répétez cela pour plusieurs points dans le temps, par exemple une semaine, un mois, 6 mois et un an, alors vous pourriez fournir une exposition assez intéressante pour ses prédictions. Une mise en garde importante: les résultats sont fortement corrélés entre les États au sein d'une élection, vous ne pouvez donc pas vraiment dire que vous avez 51 États * 3 instances de prédiction indépendantes des élections (c'est-à-dire que si le modèle sous-estime les performances des candidats dans un État, il aura également tendance à sous-estimer dans d'autres États) . Mais peut-être que je penserais à ça comme ça de toute façon juste pour que vous ayez suffisamment de données pour faire quoi que ce soit de significatif avec.

— dpritch
source

Pour toute prédiction unique que vous ne pouvez pas faire, pas plus que nous ne pouvons dire si l'affirmation "cette pièce a 60% de chances de monter des têtes" est proche de la correction d'un seul tirage au sort.

Cependant, vous pouvez évaluer sa méthodologie à travers de nombreuses prédictions - pour une élection donnée, il fait beaucoup de prédictions, pas seulement de la course présidentielle dans son ensemble mais de nombreuses prédictions relatives au vote pour le président et de nombreuses autres races (maison, sénat, gouvernement) et ainsi de suite), et il utilise également des méthodologies largement similaires au fil du temps.

Il existe de nombreuses façons de faire cette évaluation (certaines assez sophistiquées), mais nous pouvons examiner des moyens relativement simples pour en avoir une idée. Par exemple, vous pouvez diviser les prédictions de la probabilité d'une victoire en bandes, par exemple (50-55%, 55-65% et ainsi de suite), puis voir quelle proportion des prédictions dans cette bande s'est produite; la proportion de 50 à 55% de prévisions qui ont fonctionné devrait se situer entre 50 et 55% selon l'endroit où se situait la moyenne (plus une marge de variation aléatoire *).

Donc, par cette approche (ou diverses autres approches), vous pouvez voir si la distribution des résultats était cohérente avec les prédictions à travers une élection, ou à travers plusieurs élections (si je me souviens bien, je pense que ses prédictions ont été plus souvent bonnes qu'elles auraient dû l'être) , ce qui suggère que ses erreurs types ont en moyenne été légèrement surestimées).

* nous devons être prudents sur la façon d'évaluer cela, car les prédictions ne sont pas indépendantes.

— Glen_b -Reinstate Monica
source