Comment comparer 2 séries chronologiques non stationnaires pour déterminer une corrélation?


11

J'ai deux séries de données qui tracent l'âge médian au décès au fil du temps. Les deux séries montrent une augmentation de l'âge au décès au fil du temps, mais beaucoup plus basse que l'autre. Je veux déterminer si l'augmentation de l'âge au décès de l'échantillon inférieur est significativement différente de celle de l'échantillon supérieur.

Voici les données , classées par année (de 1972 à 2009 inclus), arrondies à la troisième décimale:

Cohort A    70.257  70.424  70.650  70.938  71.207  71.263  71.467  71.763  71.982  72.270  72.617  72.798  72.964  73.397  73.518  73.606  73.905  74.343  74.330  74.565  74.558  74.813  74.773  75.178  75.406  75.708  75.900  76.152  76.312  76.558  76.796  77.057  77.125  77.328  77.431  77.656  77.884  77.983
Cohort B    5.139   8.261   6.094   12.353  11.974  11.364  12.639  11.667  14.286  12.794  12.250  14.079  17.917  16.250  17.321  18.182  17.500  20.000  18.824  21.522  21.500  21.167  21.818  22.895  23.214  24.167  26.250  24.375  27.143  24.500  23.676  25.179  24.861  26.875  27.143  27.045  28.500  29.318

Les deux séries ne sont pas stationnaires - comment comparer les deux s'il vous plaît? J'utilise STATA. Tout conseil serait grandement apprécié.

Tracés de données


Si vous fournissez un lien vers vos données, Matt, nous pouvons modifier votre question pour inclure ces données.
whuber

Merci beaucoup pour l'intérêt que vous portez à ma situation - lien vers les données ajoutées. Toute aide serait appréciée.Matt
Matt Hurley

@ Matt: En regardant vos données, il semble que ce soient toutes deux des tendances à la hausse. Êtes-vous donc essentiellement intéressé par l'hypothèse selon laquelle une cohorte augmente plus rapidement que l'autre?
Andrew

Oui Andrew - la cohorte supérieure est la population générale, tandis que la cohorte avec l'âge de décès le plus faible est un groupe mourant du même état. L'hypothèse nulle étant que si elles sont étroitement corrélées, toute amélioration de la survie est potentiellement due à des facteurs communs (et non à une amélioration des soins de ladite condition).
Matt Hurley

Les augmentations, si mesurées soient-elles, sont si manifestement différentes qu'aucun test formel n'est nécessaire. (Vous obtiendrez des valeurs de p de ou moins, peu importe la façon dont vous évaluez et comparez les pentes, peu importe la façon dont vous modélisez la variation.) La différence d'espérance de vie a diminué de façon exponentielle à un taux de 0,83% par an. La chose intéressante est le recul soudain de la cohorte B en 2001; ce changement - équivalent à une perte instantanée de six ans de progrès - est statistiquement significatif. 1010
whuber

Réponses:


14

Il s'agit d'une situation simple; gardons-le ainsi. La clé est de se concentrer sur ce qui compte:

  • Obtention d'une description utile des données.

  • Évaluer les écarts individuels par rapport à cette description.

  • Évaluer le rôle et l'influence possibles du hasard dans l'interprétation.

  • Maintenir l'intégrité intellectuelle et la transparence.

Il y a encore beaucoup de choix et de nombreuses formes d'analyse seront valides et efficaces. Illustrons ici une approche qui peut être recommandée pour son adhésion à ces principes clés.

Pour maintenir l'intégrité, divisons les données en deux: les observations de 1972 à 1990 et celles de 1991 à 2009 (19 ans chacune). Nous ajusterons les modèles à la première moitié et verrons ensuite dans quelle mesure les ajustements fonctionnent dans la projection de la seconde moitié. Cela a l'avantage supplémentaire de détecter des changements importants qui peuvent s'être produits au cours du second semestre.

Pour obtenir une description utile, nous devons (a) trouver un moyen de mesurer les changements et (b) adapter le modèle le plus simple possible approprié à ces changements, l'évaluer et adapter itérativement des modèles plus complexes pour tenir compte des écarts par rapport aux modèles simples.

(a) Vous avez plusieurs choix: vous pouvez consulter les données brutes; vous pouvez regarder leurs différences annuelles; vous pouvez faire de même avec les logarithmes (pour évaluer les changements relatifs); vous pouvez évaluer les années de vie perdues ou l'espérance de vie relative (EFR); ou bien d'autres choses. Après réflexion, j'ai décidé de considérer le RLE, défini comme le rapport de l'espérance de vie dans la cohorte B par rapport à celui de la (référence) cohorte A. Heureusement, comme les graphiques le montrent, l'espérance de vie dans la cohorte A augmente régulièrement dans une écurie mode au fil du temps, de sorte que la plupart des variations d’apparence aléatoire dans le RLE seront dues à des changements dans la cohorte B.

(b) Le modèle le plus simple possible pour commencer est une tendance linéaire. Voyons comment cela fonctionne.

Figure 1

Les points bleu foncé dans ce graphique sont les données retenues pour l'ajustement; les points d'or clair sont les données suivantes, non utilisées pour l'ajustement. La ligne noire est l'ajustement, avec une pente de .009 / an. Les lignes en pointillés sont des intervalles de prédiction pour les valeurs futures individuelles.

Dans l'ensemble, l'ajustement semble bon: l' examen des résidus (voir ci-dessous) ne montre aucun changement important dans leur taille au fil du temps (pendant la période de données 1972-1990). (Il semblerait qu'elles aient eu tendance à être plus importantes au début, lorsque l'espérance de vie était faible. Nous pourrions gérer cette complication en sacrifiant une certaine simplicité, mais les avantages pour estimer la tendance ne devraient pas être grands.) de corrélation sérielle (manifestée par certains cycles de résidus positifs et négatifs), mais il est clair que cela n'a pas d'importance. Il n'y a pas de valeurs aberrantes, ce qui serait indiqué par des points au-delà des bandes de prédiction.

La seule surprise est qu'en 2001, les valeurs sont soudainement tombées dans la bande de prédiction inférieure et y sont restées: quelque chose d'assez soudain et de grand s'est produit et a persisté.

Voici les résidus, qui sont les écarts par rapport à la description mentionnée précédemment.

Figure 2

Parce que nous voulons comparer les résidus à 0, les lignes verticales sont tracées au niveau zéro comme aide visuelle. Encore une fois, les points bleus montrent les données utilisées pour l'ajustement. Les or clair sont les résidus des données se rapprochant de la limite de prédiction inférieure, après 2000.

À partir de ce chiffre, nous pouvons estimer que l'effet du changement 2000-2001 était d'environ -0,07 . Cela reflète une baisse soudaine de 0,07 (7%) d'une durée de vie complète au sein de la cohorte B. Après cette baisse, le schéma horizontal des résidus montre que la tendance précédente s'est poursuivie, mais au nouveau niveau inférieur. Cette partie de l'analyse doit être considérée comme exploratoire : elle n'a pas été spécifiquement planifiée, mais est due à une comparaison surprenante entre les données retenues (1991-2009) et l'adéquation avec le reste des données.

Une autre chose - même en utilisant seulement les 19 premières années de données, l'erreur standard de la pente est petite: elle n'est que de 0,0009, juste un dixième de la valeur estimée de .009. La statistique t correspondante de 10, avec 17 degrés de liberté, est extrêmement significative (la valeur p est inférieure à ); c'est-à-dire que nous pouvons être certains que la tendance n'est pas due au hasard. Ceci est une partie de notre évaluation du rôle du hasard dans l'analyse. Les autres parties sont les examens des résidus.107

Il ne semble pas y avoir de raison d'adapter un modèle plus compliqué à ces données, du moins pas dans le but d'estimer s'il existe une véritable tendance dans le RLE au fil du temps: il y en a une. Nous pourrions aller plus loin et diviser les données en valeurs antérieures à 2001 et postérieures à 2000 afin d'affiner nos estimationsdes tendances, mais il ne serait pas tout à fait honnête de procéder à des tests d'hypothèse. Les valeurs de p seraient artificiellement faibles, car les tests de fractionnement n'étaient pas planifiés à l'avance. Mais comme exercice exploratoire, une telle estimation est très bien. Apprenez tout ce que vous pouvez de vos données! Faites juste attention à ne pas vous tromper avec un sur-ajustement (ce qui est presque sûr de se produire si vous utilisez plus d'une demi-douzaine de paramètres ou si vous utilisez des techniques d'ajustement automatisées), ou l'espionnage des données: restez attentif à la différence entre la confirmation formelle et informelle (mais précieux) exploration de données.

Résumons:

  • En sélectionnant une mesure appropriée de l'espérance de vie (RLE), en conservant la moitié des données, en ajustant un modèle simple et en testant ce modèle par rapport aux données restantes, nous avons établi avec une grande confiance que : il y avait une tendance cohérente; il a été proche du linéaire sur une longue période de temps; et il y a eu une baisse soudaine et persistante du RLE en 2001.

  • Notre modèle est étonnamment parcimonieux : il ne nécessite que deux nombres (une pente et une intersection) pour décrire avec précision les premières données. Il en faut un tiers (date de la rupture, 2001) pour décrire un écart évident mais inattendu de cette description. Il n'y a pas de valeurs aberrantes par rapport à cette description à trois paramètres. Le modèle ne va pas être sensiblement amélioré en caractérisant la corrélation sérielle (l'objectif des techniques de séries chronologiques en général), en essayant de décrire les petits écarts individuels (résidus) présentés ou en introduisant des ajustements plus compliqués (comme l'ajout d'une composante temporelle quadratique). ou la modélisation des changements dans la taille des résidus au fil du temps).

  • La tendance est de 0,009 RLE par an . Cela signifie qu'avec chaque année qui passe, l'espérance de vie au sein de la cohorte B s'est enrichie de 0,009 (près de 1%) d'une durée de vie normale attendue. Au cours de l'étude (37 ans), cela équivaudrait à 37 * 0,009 = 0,34 = un tiers d'une amélioration à vie. Le recul de 2001 a réduit ce gain à environ 0,28 d'une vie entière de 1972 à 2009 (même si pendant cette période l'espérance de vie globale a augmenté de 10%).

  • Bien que ce modèle puisse être amélioré, il aurait probablement besoin de plus de paramètres et il est peu probable que l'amélioration soit grande (comme l'atteste le comportement quasi aléatoire des résidus). Dans l'ensemble, nous devrions donc nous contenter d'arriver à une description aussi compacte, utile et simple des données pour si peu de travail analytique.


: si les impulsions ponctuelles identifiées ne jouent aucun rôle dans les prévisions:
IrishStat

2

Je pense que la réponse de Whuber est simple et simple à comprendre pour une personne non-chronologique comme moi. Je base le mien sur le sien. Ma réponse est dans R pas Stata car je ne connais pas bien les stata.

Je me demande si la question nous demande réellement de voir si l'augmentation absolue d'une année sur l'autre est la même dans les deux cohortes (plutôt que relative). Je pense que c'est important et l'illustrons comme suit. Prenons l'exemple de jouet suivant:

a <- 21:40
b <- 41:60
x <- 1:20
plot(y = a, x = x, ylim = c(0, 60))
points(y = b, x = x, pch = 2)

entrez la description de l'image ici

Ici, nous avons 2 cohortes, dont chacune a une augmentation régulière de 1 an par an de la survie médiane. Ainsi, chaque année, les deux cohortes dans cet exemple augmentent du même montant absolu, mais le RLE donne ce qui suit:

rle <-  a / b
plot(rle)

entrez la description de l'image ici

Ce qui a évidemment une tendance à la hausse, et la valeur p pour tester l'hypothèse que le gradient de la ligne 0 est de 2,2e-16. La ligne droite ajustée (ignorons que cette ligne semble courbe) a un gradient de 0,008. Ainsi, même si les deux cohortes ont la même augmentation absolue en un an, le RLE a une pente ascendante.

Donc, si vous utilisez RLE lorsque vous souhaitez rechercher des augmentations absolues, vous rejetterez de manière inappropriée l'hypothèse nulle.

En utilisant les données fournies, calculer la différence absolue entre les cohortes que nous obtenons: entrez la description de l'image ici

Ce qui implique que la différence absolue entre la survie médiane diminue progressivement (c'est-à-dire que la cohorte avec la mauvaise survie se rapproche progressivement de la cohorte avec la meilleure survie).


: Andrew note les deux grappes de résidus à la fin de votre graphique. Cela suggère une lacune potentielle dans votre analyse. Malheureusement, même les mathématiciens qualifiés qui sont également des statisticiens qualifiés ne sont parfois pas des personnes de séries chronologiques. Ce que j'ai suggéré, c'est quelle est la procédure opérationnelle standard pour l'analyse des séries chronologiques.
IrishStat

@andrew Belle réponse. J'ai voté positivement, je crois en vos qualifications!
Adam

1
: Adam Merci pour vos belles paroles. Vous remarquerez que je n'opine que sur des problèmes / questions de séries chronologiques où j'ai une certaine expertise car je me suis spécialisé dans ce domaine au cours des 40 dernières années.
IrishStat

@IrishStat une touche discursive. Belle expérience, vous avez mis en place des punks comme moi avant ma naissance.
Adam

: Adam L'idée est d'aider les autres. J'espère vraiment que cela a été le cas. Je suis confus par le mot "punks" car je n'ai pas du tout ce sentiment. J'essaye juste d'aider!
IrishStat

1

Ces deux séries chronologiques semblent avoir une tendance déterministe. C'est une relation que vous souhaitez évidemment supprimer avant une analyse plus approfondie. Personnellement, je procéderais comme suit:

1) Je ferais une régression pour chaque série chronologique par rapport à une constante et à un temps, et je calculerais le résidu pour chaque série chronologique.

2) En prenant les deux séries de résidus, calculées à l'étape ci-dessus, je procéderais à une régression linéaire simple (sans terme constant) et examinerais la statistique t, la valeur p, et déciderais s'il y avait ou non une dépendance supplémentaire entre les deux séries.

Cette analyse suppose le même ensemble d'hypothèses que vous faites dans une régression linéaire.


: user3544 L'exécution d'une régression par rapport à une constante dans le temps est une forme de décroissance qui est une forme de pré-blanchiment; la différenciation est une autre forme de pré-blanchiment: les deux sont présomptifs car il peut y avoir plusieurs tendances ou différentes formes d'opérateurs de différenciation. Notez qu'un opérateur de différenciation est un cas particulier d'un filtre ARIMA qui convertit une série en bruit blanc. En général, on veut filtrer X pour en faire du bruit (x) puis appliquer ce filtre à Y pour créer y (pas nécessairement du bruit blanc) à des fins d'identification de la structure ou du transfert entre Y et X.
IrishStat

: User3544 J'aurais dû applaudir votre utilisation de simples tendances simples non compliquées, mais je pense que parfois il ne faut pas être hypothétique.Une tendance simple est souvent inutile s'il y a des changements de niveau dans la série ou s'il y a un certain nombre de tendances. Le test d'hypothèse concernant la constance des paramètres doit être robuste et effectué où l'on recherche le moment où les paramètres peuvent avoir changé plutôt que de sélectionner arbitrairement visuellement le point en utilisant le test de Chow. Il est bien connu que des valeurs inhabituelles testent le biais vers le bas pour l'auto-corrélation, c'est pourquoi il faut les détecter.
IrishStat

IrishStat: votre applaudissement est bien reçu et entendu .. :) Je suis tout à fait d'accord avec vos commentaires, cependant, étant donné les intrigues des deux séries chronologiques, j'ai pensé "Restons simples" .. :)
Lalas

1
: user3544 Ma citation préférée d'Einstein est "Rendre tout aussi simple que possible, mais pas plus simple" ou reformulé Faire des modèles aussi simples que possible, mais pas plus simples parce que certaines personnes pensent que l'objectif est simple alors qu'il peut être la cause d'une analyse insuffisante. Dans ce cas, votre suggestion aurait suffi pour identifier la corrélation contemporaine et la corrélation de décalage entre les deux cohortes tout en éclairant le décalage de niveau. En savoir plus: brainyquote.com/quotes/quotes/a/… .
IrishStat

0

Dans certains cas, on connaît un modèle théorique qui peut être utilisé pour tester votre hypothèse. Dans mon monde, cette "connaissance" est souvent absente et il faut recourir à des techniques statistiques qui peuvent être classées comme une analyse exploratoire des données qui résume ce qui suit. souvent trompeuse dans la mesure où des faux positifs peuvent être facilement décelés. L'une des premières analyses de cela se trouve dans Yule, GU, 1926, "Pourquoi obtenons-nous parfois des corrélations absurdes entre les séries chronologiques? Une étude sur l'échantillonnage et la nature des séries chronologiques", Journal of the Royal Statistical Society 89, 1– 64. Alternativement lorsqu'une ou plusieurs des séries elles-mêmes ont été effectuées par une activité exceptionnelle (voir whuber " le recul soudain de la cohorte B en 2001) qui peut effectivement cacher des relations significatives. Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Désormais, la détection d'une relation entre les séries chronologiques s'étend à l'examen non seulement des relations contemporaines, mais aussi des relations retardées possibles. En continuant, si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: si l'une ou l'autre série a été affectée par des anomalies (événements ponctuels), nous devons alors renforcer notre analyse en ajustant ces distorsions ponctuelles. La littérature des séries chronologiques montre comment identifier la relation via le pré-blanchiment afin d'identifier plus clairement la structure. Le pré-blanchiment ajuste la structure intra-corrélative avant d'identifier la structure inter-corrélative. Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant: Remarquez que le mot clé identifiait la structure. Cette approche conduit facilement au "modèle utile" suivant:

Y (T) = -194,45
+ [X1 (T)] [(+ 1,2396+ 1,6523B ** 1)] COHORTA

   +[X2(T)][(- 3.3924)]                :PULSE          3

   +[X3(T)][(- 2.4760)]                :LEVEL SHIFT   30 reflecting persistant  unusal activity

   +[X4(T)][(+ 1.1453)]                :PULSE         29

   +[X5(T)][(- 2.7249)]                :PULSE         11

   +[X6(T)][(+ 1.5248)]                :PULSE         27

   +[X7(T)][(+ 2.1361)]                :PULSE          4

   +[X8(T)][(+ 1.6395)]                :PULSE         13

   +[X9(T)][(- 1.6936)]                :PULSE         12

   +[X10(T)[(- 1.6996)]                :PULSE         19

   +[X11(T)[(- 1.2749)]                :PULSE         10

   +[X12(T)[(- 1.2790)]                :PULSE         17

  +       [A(T)]

ce qui suggère une relation contemporaine de 1,2936 et un effet décalé de 1,6523. Notez qu'il y a eu un certain nombre d'années où une activité inhabituelle a été identifiée, à savoir. (1975,2001,1983,1999,1976,1985,1984,1991 et 1989). Les ajustements des années nous permettent d'apprécier plus clairement la relation entre ces deux séries.

En termes de prévision

MODÈLE EXPRIMÉ COMME UN XARMAX
Y [t] = a [1] Y [t-1] + ... + a [p] Y [tp]
+ w [0] X [t-0] + ... + w [r] X [tr]
+ b [1] a [t-1] + ... + b [q] a [tq]
+ constante

LA CONSTANTE CÔTÉ DROIT EST: -194.45

COHORTA 0 1,239589 X (39) * 78,228616 = 96,971340

COHORTA 1 1,652332 X (38) * 77,983000 = 128,853835

I ~ L00030 0 -2,475963 X (39) * 1,000000 = -2,475963

      NET PREDICTION FOR Y(    39 )=                     28.894826 

Quatre coefficients suffisent pour faire une prévision et bien sûr une prédiction pour la cohorte A à la période 39 (78.228616) obtenue à partir du modèle ARIMA pour la cohorte.


4
Neuf sur 38 ans présentent des activités «insolites»? Dans un modèle avec (apparemment) 25 paramètres?! Quelque chose ne va pas avec cette interprétation. Mis à part toutes ces impulsions et le décalage de niveau, avez-vous trouvé la composante non linéaire dans la tendance de la cohorte b?
whuber

2
Quels sont les nombres dans la colonne de droite (3, 30, 29, 11, etc.)? Ils semblent faire partie de votre description des données et sont donc également des paramètres. Même si nous ne les comptons pas, l'utilisation de 14 paramètres pour décrire 38 valeurs, en particulier lorsque la question est simplement «y a-t-il une tendance?», Semble excessive. D'ailleurs, quelle est exactement la tendance? Où dans toutes ces estimations peut-on le creuser? Si un médecin venait vous voir et vous demandait «ok, qu'est-ce qui a été accompli pour les patients de la cohorte B depuis 1972», pourriez-vous leur dire en une phrase claire?
whuber

2
Concernant la «prédiction très puissante»: je peux mal comprendre à quoi correspond votre modèle, mais en général, de meilleures descriptions d'une méthode (série chronologique ou autre) qui identifie un quart de ses données comme «inhabituelles» et nécessitant un «ajustement» seraient «surajusté» et «inutilement complexe». Votre affirmation d'aucune tendance dans la cohorte B est tout simplement incroyable.
whuber

2
@Adam, parce que cette analyse ignore essentiellement les informations sur la variabilité contenues dans les 10 "impulsions", toutes les bandes de prédiction qu'elle place autour des prévisions seront très trop optimistes (trop serrées). De plus, une analyse plus approfondie qui inclut toutes les données (contrairement à mon analyse illustrative qui ne comprend que la première moitié) détectera une composante non linéaire compatible avec une légère baisse de la tendance, et cela non plus n'est pas détecté ici. Il est plus important que la prévision de comprendre l'effet 2000-2001: s'il pouvait se répéter, alors toutes les prévisions sont probablement fausses.
whuber

1
@whuber Je ne connais certes pas tout le jargon technique, mais votre explication a beaucoup de sens. Merci beaucoup.
Adam

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.