Les ensembles gagnent à la prévision pour des raisons théoriques et pratiques.
Il existe une théorie fondamentale de la prévision optimale, si nous voulons prédire le prochain événement dans une séquence basée sur la connaissance des événements précédents. La prédiction de Solomonoff (Solomonoff 1964) est prouvée optimale à plusieurs égards, y compris qu'elle «apprendra à prédire correctement toute séquence calculable avec seulement la quantité minimale absolue de données». (Hutter, Legg & Vitanyi 2007) Un prédicteur de Solomonoff pondère tous les programmes compatibles avec les données existantes, selon la complexité de Kolmogorov du programme et la probabilité que le programme attribue aux données jusqu'à présent, combinant les philosophies épicurienne («garder toutes les théories») et Ockham («préférer les théories simples») dans un cadre bayésien.
Les propriétés d'optimalité de la prédiction de Solomonoff expliquent la conclusion solide à laquelle vous faites référence: la moyenne sur des modèles, des sources ou des experts améliore les prédictions, et les prédictions moyennes surpassent même le meilleur prédicteur unique. Les diverses méthodes d'ensemble vues dans la pratique peuvent être considérées comme des approximations calculables de la prédiction de Solomonoff - et certaines comme MML (Wallace 2005) explorent explicitement les liens, bien que la plupart ne le fassent pas.
Wallace (2005) note qu'un prédicteur de Solomonoff n'est pas parcimonieux - il conserve un pool infini de modèles - mais la plus grande partie de la puissance prédictive tombe inévitablement dans un ensemble relativement petit de modèles. Dans certains domaines, le meilleur modèle unique (ou la famille de modèles presque indiscernables) peut représenter une grande partie du pouvoir prédictif et surpasser les ensembles génériques, mais dans les domaines complexes avec peu de théorie, il est fort probable qu'aucune famille ne capture la majorité de la probabilité postérieure, et donc la moyenne sur les candidats plausibles devrait améliorer les prévisions. Pour remporter le prix Netflix, l'équipe Bellkor a mélangé plus de 450 modèles (Koren 2009).
Les humains recherchent généralement une seule bonne explication: dans des domaines de "haute théorie" comme la physique, ceux-ci fonctionnent bien. En effet, s'ils captent la dynamique causale sous-jacente, ils devraient être presque imbattables. Mais là où les théories disponibles ne correspondent pas étroitement aux phénomènes (par exemple, recommandation cinématographique ou géopolitique), les modèles uniques seront moins performants: tous sont incomplets, donc aucun ne devrait dominer. Ainsi, l'accent mis récemment sur les ensembles (pour l'apprentissage automatique) et Wisdom of the Crowds (pour les experts), et le succès de programmes comme IARPA ACE et en particulier le Good Judgment Project (Tetlock & Gardiner 2015).
Les références
- M. Hutter, S. Legg et P. Vitanyi, «Probabilité algorithmique», Scholarpedia, vol. 2, 2007, p. 2572.
- Y. Koren, «La solution BellKor au grand prix Netflix», 2009.
- Solomonoff, Ray (mars 1964). "Une théorie formelle de l'inférence inductive Partie I" (PDF). Information et contrôle 7 (1): 1–22. doi: 10.1016 / S0019-9958 (64) 90223-2.
- Solomonoff, Ray (juin 1964). "Une théorie formelle de l'inférence inductive Partie II" (PDF). Information et contrôle 7 (2): 224–254. doi: 10.1016 / S0019-9958 (64) 90131-7.
- PE Tetlock, Jugement politique expert: à quel point est-ce bon? Comment pouvons-nous savoir?, Princeton University Press, 2005.
- Tetlock, PE et Gardner, D. (2015). Superforecasting: L'art et la science de la prédiction. New York: Couronne.
- CS Wallace, Inférence statistique et inductive par longueur minimale de message, Springer-Verlag, 2005.