Vous posez trois questions: (a) comment combiner plusieurs prévisions pour obtenir une seule prévision, (b) si l'approche bayésienne peut être utilisée ici, et (c) comment gérer les probabilités nulles.
La combinaison de prévisions est une pratique courante . Si vous avez plusieurs prévisions que si vous prenez la moyenne de ces prévisions, la prévision combinée résultante devrait être meilleure en termes d'exactitude que n'importe laquelle des prévisions individuelles. Pour les calculer en moyenne, vous pouvez utiliser une moyenne pondérée où les pondérations sont basées sur des erreurs inverses (c.-à-d. La précision) ou le contenu de l'information . Si vous aviez des connaissances sur la fiabilité de chaque source, vous pouvez attribuer des pondérations proportionnelles à la fiabilité de chaque source, de sorte que des sources plus fiables ont un impact plus important sur la prévision combinée finale. Dans votre cas, vous n'avez aucune connaissance de leur fiabilité, donc chacune des prévisions a le même poids et vous pouvez donc utiliser la moyenne arithmétique simple des trois prévisions
0%×.33+50%×.33+100%×.33=(0%+50%+100%)/3=50%
Comme cela a été suggéré dans les commentaires de @AndyW et @ArthurB. , d'autres méthodes que la moyenne pondérée simple sont disponibles. Beaucoup de ces méthodes sont décrites dans la littérature sur la moyenne des prévisions d'experts, que je ne connaissais pas auparavant, alors merci les gars. En faisant la moyenne des prévisions d'experts, nous voulons parfois corriger le fait que les experts ont tendance à régresser vers la moyenne (Baron et al, 2013), ou à rendre leurs prévisions plus extrêmes (Ariely et al, 2000; Erev et al, 1994). Pour y parvenir, on pourrait utiliser des transformations de prévisions individuelles , par exemple la fonction logitpi
l o g i t ( pje) = log( pje1 - pje)(1)
les chances d' puissanceune
g( pje) = ( pje1 - pje)une(2)
où , ou transformation plus générale de la forme0 < a < 1
t ( pje) = punejepuneje+ ( 1 - pje)une(3)
où si aucune transformation n'est appliquée, si a > 1 les prévisions individuelles sont rendues plus extrêmes, si 0 < a < 1 les prévisions sont rendues moins extrêmes, ce qui est montré sur l'image ci-dessous (voir Karmarkar, 1978; Baron et al, 2013 ).a = 1a > 10 < a < 1
Après une telle transformation, les prévisions sont moyennées (en utilisant la moyenne arithmétique, la médiane, la moyenne pondérée ou une autre méthode). Si les équations (1) ou (2) ont été utilisées, les résultats doivent être rétrotransformés en utilisant le logit inverse pour (1) et les cotes inverses pour (2). Alternativement, la moyenne géométrique peut être utilisée (voir Genest et Zidek, 1986; cf. Dietrich et List, 2014)
p^=∏Ni=1pwii∏Ni=1pwii+∏Ni=1(1−pi)wi(4)
ou approche proposée par Satopää et al (2014)
p^= [ ∏Ni = 1( pje1 - pje)wje]une1 + [ ∏Ni = 1( pje1 - pje)wje]une(5)
où sont des poids. Dans la plupart des cas, des poids égaux w i = 1 / N sont utilisés, sauf si des informations a priori suggèrent qu'il existe un autre choix. De telles méthodes sont utilisées pour établir la moyenne des prévisions des experts afin de corriger la sous-confiance ou l'excès de confiance. Dans d'autres cas, vous devez déterminer si la transformation des prévisions vers plus ou moins extrêmes est justifiée, car elle peut faire en sorte que l'estimation agrégée résultante sorte des limites marquées par la prévision individuelle la plus basse et la plus élevée.wjewje= 1 / N
Si vous avez une connaissance a priori de la probabilité de pluie, vous pouvez appliquer le théorème de Bayes pour mettre à jour les prévisions étant donné la probabilité a priori de pluie de la même manière que celle décrite ici . Il existe également une approche simple qui pourrait être appliquée, à savoir calculer la moyenne pondérée de vos prévisions (comme décrit ci-dessus) où la probabilité antérieure π est traitée comme un point de données supplémentaire avec un certain poids prédéfini w π comme dans cet exemple IMDB (voir aussi la source , ou ici et ici pour discussion; cf. Genest et Schervish, 1985), c'est-à-direpjeπwπ
p^= ( ∑Ni = 1pjewje) +πwπ( ∑Ni = 1wje) + wπ(6)
Cependant, il ne résulte pas de votre question que vous avez une connaissance a priori de votre problème, vous utiliserez donc probablement un uniforme au préalable, c'est-à-dire supposez a priori chances de pluie et cela ne change pas vraiment grand-chose dans le cas de l'exemple que vous avez fourni.50 %
Pour gérer les zéros, plusieurs approches différentes sont possibles. Vous devez d'abord noter que risque de pluie n'est pas une valeur vraiment fiable, car il dit qu'il est impossible qu'il pleuve. Des problèmes similaires se produisent souvent dans le traitement du langage naturel lorsque dans vos données vous n'observez pas certaines valeurs qui peuvent éventuellement se produire (par exemple, vous comptez les fréquences des lettres et dans vos données, aucune lettre inhabituelle ne se produit du tout). Dans ce cas, l'estimateur classique de probabilité, c'est-à-dire0 %
pje= nje∑jenje
où est un nombre d'occurrences de i ème valeur (sur d catégories), vous donne p i = 0 si n i = 0 . C'est ce qu'on appelle un problème de fréquence nulle . Pour ces valeurs, vous savez que leur probabilité est non nulle (elles existent!), Donc cette estimation est évidemment incorrecte. Il existe également une préoccupation pratique: la multiplication et la division par des zéros conduisent à des zéros ou à des résultats indéfinis, de sorte que les zéros sont problématiques dans le traitement.njejerépje= 0nje= 0
Le correctif facile et couramment appliqué consiste à ajouter un constant à vos décomptes, de sorte queβ
pje= nje+ β( ∑jenje) + dβ
Le choix commun pour les est 1 , c. -à- application uniforme avant sur la base de la règle de Laplace de la succession , 1 / deux pour estimer Kritchevski-Trofimov, ou 1 / d pour estimateur Schurmann-Grassberger (1996). Notez cependant que ce que vous faites ici, c'est que vous appliquez des informations hors données (antérieures) dans votre modèle, afin qu'elles aient une saveur bayésienne subjective. En utilisant cette approche, vous devez vous souvenir des hypothèses que vous avez faites et les prendre en considération. Le fait que nous ayons de forts a prioriβ11 / 21 / dla connaissance qu'il ne devrait pas y avoir de probabilités nulles dans nos données justifie directement l'approche bayésienne ici. Dans votre cas, vous n'avez pas de fréquences mais de probabilités, vous ajouteriez donc une très petite valeur afin de corriger les zéros. Notez cependant que, dans certains cas, cette approche peut avoir de mauvaises conséquences (par exemple lors du traitement des journaux ), elle doit donc être utilisée avec prudence.
Schurmann, T. et P. Grassberger. (1996). Estimation d'entropie des séquences de symboles. Chaos, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS et Zauberman, G. (2000). Les effets de la moyenne des estimations de probabilité subjective entre et au sein des juges. Journal of Experimental Psychology: Applied, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. et Ungar, LH (2014). Deux raisons de rendre les prévisions de probabilité agrégées plus extrêmes. Analyse des décisions, 11 (2), 133-145.
Erev, I., Wallsten, TS et Budescu, DV (1994). Sur et sous-confiance simultanée: le rôle de l'erreur dans les processus de jugement. Revue psychologique, 101 (3), 519.
Karmarkar, États-Unis (1978). Utilité subjectivement pondérée: une extension descriptive du modèle d'utilité attendu. Comportement organisationnel et performance humaine, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV et Wallsten, TS (2014). Agrégation des prévisions via recalibrage. Apprentissage automatique, 95 (3), 261-289.
Genest, C. et Zidek, JV (1986). Combiner les distributions de probabilités: une critique et une bibliographie annotée. Science statistique, 1 , 114–135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE et Ungar, LH (2014). Combiner plusieurs prédictions de probabilité à l'aide d'un modèle logit simple. International Journal of Forecasting, 30 (2), 344-356.
Genest, C. et Schervish, MJ (1985). Modélisation des jugements d'experts pour la mise à jour bayésienne. Les annales de la statistique , 1198-1212.
Dietrich, F. et List, C. (2014). Mise en commun des opinions probabilistes. (Non publié)