Dans le livre de Nate Silver, The Signal and the Noise, il écrit ce qui suit, ce qui peut éclairer votre question:
L'un des tests les plus importants d'une prévision - je dirais que c'est la plus importante - s'appelle l'étalonnage. Sur toutes les fois où vous avez dit qu'il y avait 40% de risque de pluie, à quelle fréquence la pluie s'est-elle réellement produite? Si, à long terme, il pleuvait vraiment environ 40% du temps, cela signifie que vos prévisions étaient bien calibrées. S'il finissait par pleuvoir seulement 20% du temps, ou 60% du temps, ce n'était pas le cas.
Cela soulève donc quelques points. Tout d'abord, comme vous le faites remarquer à juste titre, vous ne pouvez vraiment pas faire d'inférence sur la qualité d'une seule prévision par le résultat de l'événement que vous prévoyez. Le mieux que vous puissiez faire est de voir les performances de votre modèle au cours de nombreuses prévisions.
Une autre chose à laquelle il est important de penser est que les prédictions fournies par Nate Silver ne sont pas un événement en soi, mais la distribution de probabilité de l'événement. Donc, dans le cas de la course présidentielle, il estime la distribution de probabilité de la victoire de Clinton, Trump ou Johnson. Donc, dans ce cas, il estime une distribution multinomiale.
Mais il prédit en fait la course à un niveau beaucoup plus précis. Ses prédictions estiment les distributions de probabilité du pourcentage de votes que chaque candidat obtiendra dans chaque État. Donc, si nous considérons 3 candidats, cela pourrait être caractérisé par un vecteur aléatoire de longueur 51 * 3 et prenant des valeurs dans l'intervalle [0, 1], sous la contrainte que les proportions soient égales à 1 pour les proportions dans un état. Le nombre 51 est dû au fait que les autres sont 50 États + DC (et en fait, je pense que c'est en fait un peu plus parce que certains États peuvent partager leurs votes des collèges électoraux), et le nombre 3 est dû au nombre de candidats.
Maintenant, vous n'avez pas beaucoup de données pour évaluer ses prédictions - il n'a fourni que des prédictions pour les 3 dernières élections que je connais (y avait-il plus?). Je ne pense donc pas qu'il existe un moyen d'évaluer équitablement son modèle, à moins que vous n'ayez réellement le modèle en main et que vous puissiez l'évaluer à l'aide de données simulées. Mais il y a encore des choses intéressantes que vous pourriez regarder. Par exemple, je pense qu'il serait intéressant de voir avec quelle précision il a prédit les proportions de vote État par État à un moment donné, par exemple une semaine après les élections. Si vous répétez cela pour plusieurs points dans le temps, par exemple une semaine, un mois, 6 mois et un an, alors vous pourriez fournir une exposition assez intéressante pour ses prédictions. Une mise en garde importante: les résultats sont fortement corrélés entre les États au sein d'une élection, vous ne pouvez donc pas vraiment dire que vous avez 51 États * 3 instances de prédiction indépendantes des élections (c'est-à-dire que si le modèle sous-estime les performances des candidats dans un État, il aura également tendance à sous-estimer dans d'autres États) . Mais peut-être que je penserais à ça comme ça de toute façon juste pour que vous ayez suffisamment de données pour faire quoi que ce soit de significatif avec.