Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or»: comment ont-ils fait cela?

Ce message dans un article de Reuter du 25.02.2019 fait actuellement le tour du monde:

Les preuves du réchauffement climatique provoqué par l'homme atteignent «l'étalon-or»

[Les scientifiques] ont déclaré que la confiance selon laquelle les activités humaines augmentaient la chaleur à la surface de la Terre avait atteint le niveau «cinq sigma», une jauge statistique indiquant qu'il n'y a qu'une chance sur un million qu'un signal apparaisse s'il y avait pas de réchauffement.

Je pense que cela fait référence à cet article "Célébration de l'anniversaire de trois événements clés dans la science du changement climatique", qui contient une intrigue, qui est schématisée ci-dessous (il s'agit d'un croquis, car je ne pouvais pas trouver une image open source pour un des images gratuites se trouvent ici ). Un autre article du même groupe de recherche, qui semble être une source plus originale, est ici (mais il utilise une signification de 1% au lieu de $5\sigma$ ).

Le graphique présente les mesures de trois groupes de recherche différents: systèmes de télédétection, centre d'applications et de recherche par satellite et université de l'Alabama à Huntsville.

Le graphique affiche trois courbes montantes du rapport signal sur bruit en fonction de la longueur de la tendance.

Les scientifiques ont donc mesuré un signal anthropique du réchauffement planétaire (ou du changement climatique?) À un niveau de , ce qui est apparemment une norme scientifique probante . $5\sigma$

Pour moi, un tel graphique, qui a un niveau d'abstraction élevé, soulève de nombreuses questions , et en général je m'interroge sur la question $^{\dagger}$ des 'Comment ont-ils fait cela?' . Comment pouvons-nous expliquer cette expérience en mots simples (mais pas si abstraits) et expliquer également la signification du niveau ? $5\sigma$

Je pose cette question ici parce que je ne veux pas de discussion sur le climat. Au lieu de cela, je veux des réponses concernant le contenu statistique et surtout pour clarifier le sens d'une telle déclaration qui utilise / revendique $5 \sigma$ .

$^\dagger$ Quelle est l'hypothèse nulle? Comment ont-ils mis en place l'expérience pour obtenir un signal anthropique ? Quel est l'effet taille de l' du signal? S'agit-il d'un petit signal que nous ne mesurons que maintenant parce que le bruit diminue ou que le signal augmente? Quels types d'hypothèses sont utilisés pour créer le modèle statistique permettant de déterminer le franchissement d'un seuil de 5 sigma (indépendance, effets aléatoires, etc.)? Pourquoi les trois courbes des différents groupes de recherche sont-elles différentes, ont-elles un bruit différent ou ont-elles des signaux différents, et dans le cas de ce dernier, qu'est-ce que cela signifie en ce qui concerne l'interprétation de la probabilité et de la validité externe?

— Sextus Empiricus
source

@MattF. Mon attente est qu’il sera possible de faire un simple exposé expliquant le concept statistique du seuil de

qui a été utilisé ici (du moins les physiciens des particules de haute énergie, qui utilisent également les différences / effets de

pour décrire les rapports signal sur bruit dans les comptes d'événements, n'ont aucun problème avec cela). Par simple, je veux dire quelque chose dépouillé du jargon de la climatologie, mais suffisamment sophistiqué pour contenir l’essence. Disons que ce serait quelque chose d'écrit pour les statisticiens et les mathématiciens professionnels, de sorte qu'ils puissent comprendre les

ici.

5 σ

$5\sigma$

σ

$\sigma$

5 σ

$5\sigma$

— Sextus Empiricus

Pour souligner le contraste avec la physique des hautes énergies: pour ce domaine, les statisticiens peuvent comprendre que le niveau

est fondamentalement vide de sens et que la barre est haute parce que le calcul est techniquement erroné (1. l'effet de recherche ailleurs 2. les hypothèses erronées concernant la distribution des erreurs en ignorant les effets systématiques 3. faisant implicitement une analyse bayésienne, «les revendications extraordinaires nécessitent des preuves extraordinaires»).

5 σ

$5\sigma$

— Sextus Empiricus

La question est de savoir combien de ces trois effets sont présents dans le cas de cet article synthétique sur le réchauffement climatique. Je pense qu'il est important de préciser cela, de démystifier les revendications de science. Il est si commun de simplement jeter quelques chiffres dans un argument pour le faire paraître rigoureux, et la plupart des gens arrêtent de le remettre en question.

— Sextus Empiricus

Avez-vous vu cette critique: judithcurry.com/2019/03/01/… ?

— Robert Long

Par coïncidence, je lisais ces journaux il y a quelques jours à peine et j'ai maintenant remarqué votre nouvelle prime. Je pourrais écrire quelque chose maintenant.

— amibe dit de réintégrer Monica

Réponses:

Il ne s'agit pas toujours de tests statistiques. Cela peut aussi concerner la théorie de l'information.

Le terme 5σ est ce qui est écrit: rapport entre "signal" et "bruit". Dans les tests d'hypothèses, nous avons une estimation d'un paramètre de distribution et une erreur type de l'estimation. Le premier est un "signal", le second est un "bruit" et le rapport des statistiques à l'erreur standard est le suivant: statistiques z, statistiques t, statistiques F, nommez-le.

Néanmoins, le rapport signal sur bruit est utile partout où nous recevons / percevons certaines informations à travers un bruit. Comme le lien cité explique

Le rapport signal sur bruit (SNR ou S / N souvent abrégé) est une mesure utilisée en science et en ingénierie pour quantifier le degré de corruption du signal par le bruit.

Dans notre cas, le "signal" est le changement réel mesuré de la température de certaines couches de l'atmosphère et le "bruit" est une prédiction du changement issu des simulations sans les influences anthropiques connues. Il se trouve que ces simulations ont prédit une température plus ou moins stationnaire avec un certain écart type σ.

Revenons maintenant aux statistiques. Toutes les statistiques de test (z, t, F) sont les rapports de l'estimation à son erreur standard. Ainsi, lorsque les statisticiens entendent parler de S / N, nous pensons à une statistique z et nous l’équipons de la probabilité. Les climatologues ne le font évidemment pas (il n’ya aucune mention de la probabilité dans l’ article ). Ils découvrent simplement que le changement est "environ trois à huit" fois plus grand que prévu, le rapport S / N est compris entre 3σ et 8σ.

Ce que l' article rapporte, c'est qu'ils ont réalisé deux types de simulations: l'une avec les influences anthropiques connues incluses dans le modèle et les autres avec les influences anthropiques connues exclues. Les premières simulations étaient similaires aux données satellitaires réelles mesurées, tandis que les secondes étaient très éloignées. Si cela est probable ou non, ils ne disent pas et ne s'en soucient évidemment pas.

Pour répondre à d'autres questions. Ils n'ont pas fait d'expériences, ils ont fait des simulations selon leurs modèles. Il n’ya donc pas d’hypothèse nulle explicite à l’exception de l’évident, selon lequel le changement est similaire à celui attendu (S / N = 1).

La taille de l'effet du signal est une différence entre les données réelles et les simulations. C'est un signal cinq fois plus important que prévu (cinq fois la variabilité habituelle des températures). Il semble que le bruit diminue en raison de la quantité et éventuellement de la précision des mesures.

Contrairement à nos attentes des "vrais scientifiques", il n’existe aucun modèle statistique dont nous pourrions parler. La question des hypothèses retenues est donc vide de sens. La seule hypothèse est que leurs modèles leur permettent de prévoir le climat. Ceci est aussi valable que de dire que les modèles utilisés pour les prévisions météorologiques sont solides.

Il y a beaucoup plus que trois courbes. Ce sont les résultats de simulation de différents modèles. Ils doivent simplement être différents. Et oui, avoir un bruit différent. Le signal, dans la mesure où il est différent, correspond à différents ensembles de mesures, qui ont leur erreur de mesure et devraient également être différents. Qu'est-ce que cela signifie en ce qui concerne l'interprétation? L’interprétation des probabilités du rapport S / N n’est pas bonne. Cependant, la validité externe des résultats est bonne. Ils affirment simplement que les changements climatiques de 1979 à 2011 sont comparables aux simulations lorsque les influences anthropiques connues sont prises en compte et environ cinq fois plus grandes que celles calculées par simulation lorsque les facteurs anthropiques connus sont exclus du modèle.

Donc, il reste une question. Si les climatologues demandent aux statisticiens de créer un modèle, que devrait-il être? À mon avis, quelque chose dans la ligne du mouvement brownien.

— Nino Rode
source

Alors, qu'est-ce qui constitue le "signal", quelle est la nature du "bruit" et à quel (s) processus invisible (s) pouvons-nous l'attribuer?

— Josh

Sory @Josh, j'ai appuyé prématurément sur le bouton d'envoi. Maintenant, vous pouvez lire ma réponse complète. Plus souvent, le "signal" correspond aux mesures réelles et le "bruit" aux résultats des simulations lorsque les facteurs anthropiques connus sont exclus du modèle. Et à mon avis c'est très peu statistique ...

— Nino Rode

n σ

$n\sigma$

@ NinoRode Peut-être qu'il me manque quelque chose, mais puisque le modèle de "bruit" sans influences anthropiques est manifestement faux en raison du fait que la température moyenne a augmenté sur la base de mesures empiriques , comment ce modèle fournit-il une ligne de base pertinente? Comme il est entendu que les températures fluctuent en raison de processus naturels ( en.wikipedia.org/wiki/Little_Ice_Age ) en plus de ceux anthropiques, quelle est la base de l'hypothèse selon laquelle le modèle "bruit" devrait avoir une augmentation de la température moyenne nulle la période d'analyse?

— Josh

@Scott, le problème avec le dessin animé intelligent est qu’il n’ya pas de bruit dans la série chronologique, car les mesures ne sont probablement pas assez précises pour déterminer la température dans un certain siècle, et encore moins pour une année spécifique. Donc, il semble lisse et progressive jusqu'à l'avènement des appareils de mesure modernes. En mécanique des fluides, cela reviendrait à comparer une observation instantanée d’un champ de vitesse à une observation à moyenne de Reynolds; ce n'est pas une comparaison appropriée. À moins que vous ne pensiez vraiment qu'il n'y avait pratiquement aucune volatilité dans les températures mondiales jusqu'à la naissance de Greta Thunberg. :)

— Josh

Avertissement: je ne suis pas un expert en climatologie, ce n'est pas mon domaine. S'il vous plaît garder cela à l'esprit. Les corrections sont les bienvenues.

Le chiffre auquel vous faites référence provient d'un article récent de Santer et al. 2019, Célébration de l'anniversaire de trois événements clés dans la science du changement climatique de Nature Climate Change . Ce n'est pas un document de recherche, mais un bref commentaire. Cette figure est une mise à jour simplifiée d'une figure similaire d'un article précédent de Science , des mêmes auteurs, Santer et al. 2018, Influence de l'homme sur le cycle saisonnier de la température troposphérique . Voici le chiffre 2019:

Et voici le chiffre 2018; le panneau A correspond à la figure 2019:

Ici, je vais essayer d'expliquer l'analyse statistique qui se cache derrière ce dernier chiffre (les quatre panneaux). Le document scientifique est en accès libre et assez lisible; les détails statistiques sont, comme d’habitude, cachés dans la documentation supplémentaire. Avant de discuter des statistiques en tant que telles, il faut dire quelques mots sur les données d’observation et les simulations (modèles climatiques) utilisées ici.

1. données

Les abréviations RSS, UAH et STAR font référence aux reconstructions de la température troposphérique à partir des mesures satellitaires. La température troposphérique est surveillée depuis 1979 à l'aide de satellites météorologiques: voir Wikipedia sur les mesures de température MSU . Malheureusement, les satellites ne mesurent pas directement la température; ils mesurent quelque chose d'autre, à partir de laquelle la température peut être déduite. De plus, ils sont connus pour souffrir de divers biais et problèmes d’étalonnage dépendant du temps. Cela rend difficile la reconstruction de la température réelle. Plusieurs groupes de recherche effectuent cette reconstruction en suivant des méthodologies quelque peu différentes et en obtenant des résultats finaux quelque peu différents. RSS, UAH et STAR sont ces reconstructions. Pour citer Wikipedia,

Les satellites ne mesurent pas la température. Ils mesurent les rayonnements dans différentes bandes de longueur d’onde, qui doivent ensuite être inversées mathématiquement pour obtenir des déductions indirectes de la température. Les profils de température qui en résultent dépendent des détails des méthodes utilisées pour obtenir les températures à partir des radiances. En conséquence, différents groupes qui ont analysé les données satellitaires ont obtenu différentes tendances de la température. Parmi ces groupes figurent les systèmes de télédétection (RSS) et l’Université d’Alabama à Huntsville (UAH). La série de satellites n'est pas totalement homogène - l'enregistrement est construit à partir d'une série de satellites avec une instrumentation similaire mais non identique. Les capteurs se détériorent avec le temps et des corrections sont nécessaires pour la dérive des satellites en orbite.

Il y a beaucoup de débats pour savoir quelle reconstruction est la plus fiable. Chaque groupe met à jour leurs algorithmes de temps en temps, modifiant ainsi toute la série chronologique reconstruite. C'est pourquoi, par exemple, RSS v3.3 diffère de RSS v4.0 dans la figure ci-dessus. Dans l’ensemble, autant que je sache, il est bien admis sur le terrain que les estimations de la température de surface globale sont plus précises que les mesures par satellite. Quoi qu’il en soit, l’important pour cette question est qu’il existe plusieurs estimations de la température troposphérique résolue spatialement de 1979 à nos jours - c’est-à-dire en fonction de la latitude, de la longitude et de l’heure.

Notons une telle estimation par $T(\mathbf x, t)$ .

2. modèles

Différents modèles climatiques peuvent être utilisés pour simuler la température troposphérique (également en fonction de la latitude, de la longitude et de l'heure). Ces modèles prennent en entrée la concentration de CO2, l'activité volcanique, l'irradiance solaire, les concentrations d'aérosols et diverses autres influences externes, et produisent la température en sortie. Ces modèles peuvent être exécutés pour la même période (1979 - maintenant), en utilisant les influences externes réelles mesurées. Les sorties peuvent ensuite être moyennées pour obtenir la sortie moyenne du modèle.

One can also run these models without inputting the anthropogenic factors (greenhouse gases, aerosols, etc.), to get an idea of non-anthropogenic model predictions. Note that all other factors (solar/volcanic/etc.) fluctuate around their mean values, so the non-anthropogenic model output is stationary by construction. In other words, the models do not allow the climate to change naturally, without any specific external cause.

Let us denote the mean anthropogenic model output by $M(\mathbf x,t)$ and the mean non-anthropogenic model output by $N(\mathbf x, t)$ .

3. Fingerprints and $z$ -statistics

Now we can start talking about statistics. The general idea is to look at how similar the measured tropospheric temperature $T(\mathbf x, t)$ is to the anthropogenic model output $M(\mathbf x, t)$ , compared to the non-anthropogenic model output $N(\mathbf x, t)$ . One can quantify the similarity in different ways, corresponding to different "fingerprints" of anthropogenic global warming.

The authors consider four different fingerprints (corresponding to the four panels of the figure above). In each case they convert all three functions defined above into annual values $T(\mathbf x, i)$ , $M(\mathbf x, i)$ , and $N(\mathbf x, i)$ , where $i$ indexes years from 1979 until 2019. Here are the four different annual values that they use:

Annual mean: simply average temperature over the whole year.
Annual seasonal cycle: the summer temperature minus the winter temperature.
Annual mean with global mean subtracted: the same as (1) but subtracting the global average for each year across the globe, i.e. across $\mathbf x$ . The result has mean zero for each $i$ .
Annual seasonal cycle with global mean subtracted: the same as (2) but again subtracting the global average.

For each of these four analyses, the authors take the corresponding $M(\mathbf x, i)$ , do PCA across time points, and obtain the first eigenvector $F(\mathbf x)$ . It is basically a 2D pattern of maximal change of the quantity of interest according to the anthropogenic model.

Then they project the observed values $T(\mathbf x, i)$ onto this pattern $F(\mathbf x)$ , i.e. compute

Z (i) = \sum_{x} T (x, i) F (x),

$Z(i) = \sum_\mathbf x T(\mathbf x, i) F(\mathbf x),$ and find the slope

β

$\beta$ of the resulting time series. It will be the numerator of the

z

$z$ -statistic ("signal-to-noise ratio" in the figures).

To compute the denominator, they use non-anthropogenic model instead of the actually observed values, i.e. compute

W (i) = \sum_{x} N (x, i) F (x),

$W(i) = \sum_\mathbf x N(\mathbf x, i) F(\mathbf x),$ and again find its slope

β_{n o i s e}

$\beta_\mathrm{noise}$ . To obtain the null distribution of slopes, they run the non-anthropogenic models for 200 years, chop the outputs in 30-year chunks and repeat the analysis. The standard deviation of the

β_{n o i s e}

$\beta_\mathrm{noise}$ values forms the denominator of the

z

$z$ -statistic:

z = \frac{β}{{Var}^{1 / 2} [β_{n o i s e}]} .

$z = \frac{\beta}{\operatorname{Var}^{1/2}[\beta_\mathrm{noise}]}.$

What you see in panels A--D of the figure above are these $z$ values for different end years of the analysis.

The null hypothesis here is that the temperature fluctuates under the influence of stationary solar/volcanic/etc inputs without any drift. The high $z$ values indicate that the observed tropospheric temperatures are not consistent with this null hypothesis.

4. Some comments

The first fingerprint (panel A) is, IMHO, the most trivial. It simply means that the observed temperatures monotonically grow whereas the temperatures under the null hypothesis do not. I do not think one needs this whole complicated machinery to make this conclusion. The global average lower tropospheric temperature (RSS variant) time series looks like this:

and clearly there is a very significant trend here. I don't think one needs any models to see that.

The fingerprint in panel B is somewhat more interesting. Here the global mean is subtracted, so the $z$ -values are not driven by the rising temperature, but instead by the the spatial patterns of the temperature change. Indeed, it is well-known that the Northern hemisphere warms up faster than the Southern one (you can compare the hemispheres here: http://images.remss.com/msu/msu_time_series.html), and this is also what climate models output. The panel B is largely explained by this inter-hemispheric difference.

The fingerprint in panel C is arguably even more interesting, and was the actual focus of the Santer et al. 2018 paper (recall its title: "Human influence on the seasonal cycle of tropospheric temperature", emphasis added). As shown in Figure 2 in the paper, the models predict that the amplitude of the seasonal cycle should increase in mid-latitudes of both hemispheres (and decrease elsewhere, in particular over the Indian monsoon region). This is indeed what happens in the observed data, yielding high $z$ -values in panel C. Panel D is similar to C because here the effect is not due to the global increase but due to the specific geographical pattern.

P.S. The specific criticism at judithcurry.com that you linked above looks rather superficial to me. They raise four points. The first is that these plots only show $z$ -statistics but not the effect size; however, opening Santer et al. 2018 one will find all other figures clearly displaying the actual slope values which is the effect size of interest. The second I failed to understand; I suspect it is a confusion on their part. The third is about how meaningful the null hypothesis is; this is fair enough (but off-topic on CrossValidated). The last one develops some argument about autocorrelated time series but I do not see how it applies to the above calculation.

— amoeba says Reinstate Monica
source

(+1) This is a great answer! If you don't mind: could you expand on the "PCA across time points" step? I don't understand the thinking behind doing a PCA there instead of analysing each dimension separately.

— mkt - Reinstate Monica

+1 This is a wonderfull explanation. Very close to what I expected (I did not really know what to expect actually and my question was vague) and worthy of bounty (I will leave it till the end to draw attention). I'll need to read the fingerprint section a few more times and have it simmer for a while in my brain, I still desire a bit more intuition and better grasp behind the

β_{noise}

$\beta_{\text {noise}}$ and the connection to noise in data and what underlying principle of probability is causing this (in high energy particle physics this is more obvious). But this answer will help me sufficiently.

— Sextus Empiricus

@mkt I am sure there are many different ways to do a similar analysis. This is not my field and I would not know why the authors made these particular analysis choices. That said, they do PCA do reduce what I called

N (x, i)

$N(x,i)$ to

F (x)

$F(x)$ , i.e. to remove the time-dependency. This is because they want to project the observed values in each year (what I called

T (x, i)

$T(x,i)$ ) onto this

F (x)

$F(x)$ . For this purpose, it should be time independent. I suspect that instead of doing PCA, they could have used

N (x, 2019)

$N(x, 2019)$ or the average over the last several years. But why not PCA.

— amoeba says Reinstate Monica

Yeah, this stuff can be discussed from all kinds of angles. I am personally often without much judgement about any side, but I do like that arguments are crisp and clear. The reporting about climate is currently very fuzzy.

— Sextus Empiricus

What still puzzles me about the technical treatement is the meaning of

F (x)

$F(x)$ (you can describe the theoretic time series as a sum of components and this is the one with largest variance?) But why correlate the measured signal with this component and relate it to the variance of the correlation of the anthropogenic model with this component ? (did you maybe switch anthropogenic and non anthropogenic model?) All this stuff (hidden analysis) makes it very difficult to see whether they truely discovered a bump with 5 sigma or whether they just found that measurements do not fit the model.

— Sextus Empiricus