Voici une réponse légèrement hors champ, qui ne touche que la partie «meilleures pratiques concernant la combinaison de plusieurs modèles» de votre question. C'est fondamentalement exactement ma thèse de spécialisation, sauf que je traite de modèles complexes, hautement non linéaires qui présentent des modèles de chaos et de bruit - climat. Il est peu probable que cela soit largement applicable à de nombreux domaines, mais pourrait être utile en écologie ou en économétrie.
Jusqu'à une date relativement récente dans la communauté de la modélisation du climat, les modèles étaient en grande partie simplement brisés ensemble dans une moyenne non pondérée (généralement après correction du biais impliquant la suppression de la moyenne du modèle pour une partie ou la totalité de la période d'échantillonnage). C'est essentiellement ce que le GIEC a fait pour le 4e rapport d'évaluation (4AR) et les rapports précédents.
Ceci est plus ou moins un exemple de l' école " vérité plus erreur " de combinaison d'ensemble, où l'on suppose tacitement ou explicitement que les séries d'observation (par exemple la température globale, les précipitations locales, etc.) sont vraies, et que si vous prenez suffisamment d'échantillons (par exemple, les exécutions de modèle), le bruit dans les exécutions de modèle sera annulé (voir (1)).
Plus récemment, des méthodes de combinaison de modèles basés sur la pondération des performances ont été utilisées. Étant donné que les modèles climatiques sont si bruyants et comportent tant de variables et de paramètres, les seuls moyens d'évaluer les performances (que je connaisse) sont de prendre la covariance ou de prendre le MSE entre la sortie du modèle et la série chronologique observée. Les modèles peuvent ensuite être combinés en pondérant la moyenne en fonction de cette mesure. Il y a un bon aperçu de cela dans (2).
Une hypothèse derrière cette méthode de combinaison des simulations est l' hypothèse que tous les modèles sont raisonnablement indépendants - si certains étaient fortement dépendants, ils biaiseraient la moyenne. Cette hypothèse était raisonnablement juste pour l'ensemble de données utilisé pour 4AR ( CMIP3 , car cet ensemble de données était composé de quelques exécutions de modèles provenant de nombreux groupes de modélisation (d'autre part, le code est partagé dans la communauté de modélisation, il peut donc toujours y avoir une certaine interdépendance). Pour un regard intéressant à ce sujet, voir (3)) L'ensemble de données pour le prochain rapport d'évaluation, CMIP5, n'a pas cet attribut quelque peu fortuit - certaines équipes de modélisation soumettront quelques exécutions, tandis que d'autres en soumettront des centaines. Des ensembles provenant d'équipes différentes peuvent être produits par péturbation de conditions initiales, ou par des modifications de la physique du modèle et de la paramétrisation. En outre, ce super ensemble n'est pas échantillonné de manière systématique - c'est juste celui qui apporte les données qui est accepté (dans des limites raisonnables). Ceci est connu dans le domaine comme un « ensemble d'opportunités ». Il y a de fortes chances que l'utilisation d'une moyenne non pondérée sur un tel ensemble vous donne un biais majeur vers les modèles avec plus de séries (car même s'il y a des centaines de séries, il y a probablement un nombre beaucoup plus petit de séries vraiment indépendantes).
Mon superviseur a actuellement un document en revue décrivant un processus de combinaison de modèles impliquant une pondération de performance ET d' indépendance . Un résumé du document de conférence est disponible (4), je publierai le lien vers le document lorsqu'il sera publié (processus lent, ne retenez pas votre souffle). Fondamentalement, cet article décrit un processus qui implique de prendre la covariance des erreurs de modèle (modèle obsolète) et de pondérer les modèles qui ont une covariance élevée avec tous les autres modèles (c.-à-d. Les modèles avec des erreurs fortement dépendantes). La variance d'erreur du modèle est également calculée et utilisée comme composante de pondération des performances.
Il convient également de noter que la modélisation du climat est évidemment fortement impactée par les aléas de la modélisation numérique en général. Il y a une chose appelée «test de rire» - si vous vous retrouvez avec un modèle qui implique que les températures moyennes mondiales seront de + 20 ° C d'ici 2050, vous le jetez simplement, car ce n'est clairement pas pertinent physiquement. Évidemment, ce genre de test est assez subjectif. Je ne l'ai pas encore requis, mais je m'attends à le faire dans un proche avenir.
C'est ma compréhension de la combinaison de modèles d'état dans mon domaine en ce moment. Évidemment, j'apprends toujours, donc si je touche quelque chose de spécial, je reviendrai et mettrai à jour cette réponse.
(1) Tebaldi, C. & Knutti, R., 2007. L'utilisation de l'ensemble multimodèle dans les projections climatiques probabilistes. Transactions philosophiques de la Royal Society A: Mathematical, Physical and Engineering Sciences, 365 (1857), pp.2053–2075.
(2) Knutti, R. et al., 2010. Réunion d'experts du GIEC sur l'évaluation et la combinaison de projections climatiques multimodèles.
(3) Masson, D. & Knutti, R., 2011. Généalogie des modèles climatiques. Géophysique. Res. Lett, 38 (8), p. L08703.
(4) Abramowitz, G. & Bishop, C., 2010. Définition et pondération de la dépendance du modèle dans la prédiction d'ensemble. Dans les résumés des réunions d'automne de l'AGU. p. 07.