Modélisation des données longitudinales lorsque l'effet du temps varie sous forme fonctionnelle entre individus

32

Contexte :

Imaginez que vous ayez une étude longitudinale qui a mesuré une variable dépendante (DV) une fois par semaine pendant 20 semaines sur 200 participants. Bien que je sois intéressé en général, les DV typiques auxquels je pense incluent le rendement au travail après l’embauche ou diverses mesures de bien-être à la suite d’une intervention de psychologie clinique.

Je sais que la modélisation à plusieurs niveaux peut être utilisée pour modéliser la relation entre le temps et le DV. Vous pouvez également permettre aux coefficients (interceptes, pentes, etc.) de varier d'un individu à l'autre et d'estimer les valeurs particulières des participants. Mais qu'en est-il si, lors de l'inspection visuelle des données, vous constatez que la relation entre l'heure et le DV est l'une des suivantes:

de forme fonctionnelle différente (certaines sont peut-être linéaires et d'autres sont exponentielles ou certaines ont une discontinuité)
variance d'erreur différente (certaines personnes sont plus volatiles d'un point à un autre)

Questions :

Quelle serait une bonne façon d’aborder des données de modélisation de ce type?
En particulier, quelles sont les approches les plus efficaces pour identifier différents types de relations et classer les individus en fonction de leur type?
Quelles implémentations existent dans R pour de telles analyses?
Y a-t-il des références sur la façon de procéder: manuel ou application réelle?

repeated-measures random-effects-model latent-class

— Jeromy Anglim
source

20

Je suggérerais de regarder les trois directions suivantes:

clustering longitudinal : ceci est non supervisé, mais vous utilisez l'approche k-means en vous basant sur le critère de Calinsky pour évaluer la qualité de la partition (package kml et références incluses dans l'aide en ligne); donc, en gros, cela n'aidera pas à identifier une forme spécifique pour un parcours temporel individuel, mais simplement à séparer un profil d'évolution homogène
une sorte de courbe de croissance latente tenant compte de l'hétéroscédasticité: mon meilleur choix serait de regarder les références étendues autour du logiciel MPlus , en particulier la FAQ et le mailing. J'ai également entendu parler du modèle hétéroscédastique multiplicatif à effet aléatoire (essayez de rechercher Google autour de ces mots-clés). Je trouve ces articles ( 1 , 2 ) intéressants, mais je ne les ai pas examinés en détail. Je ferai le point avec des références sur l'évaluation neuropsychologique une fois de retour à mon bureau.
PCA fonctionnelle ( paquetage fpca ), mais il peut être intéressant de se pencher sur l'analyse de données fonctionnelles

Autres références (juste parcouru à la volée):

Willett & Bull (2004), Analyse de la courbe de croissance latente - les auteurs utilisent la méthode LGC sur des trajectoires de lecture non linéaires
Welch (2007), Ajustement du modèle et interprétation des modèles de courbe de croissance latente non linéaire - une thèse sur la modélisation du changement non linéaire dans le contexte de la modélisation de la croissance latente
Berkey CS, NM Laird (1986). Analyse de courbe de croissance non linéaire: estimation des paramètres de population . Ann Hum Biol. 1986 mars-avril; 13 (2): 111-28
Rice (2003), Analyse de données fonctionnelles et longitudinales: perspectives sur le lissage
Wu, Fan et Müller (2007). Régression linéaire fonctionnelle à coefficients variables

— chl
source

1

Merci. L'idée d'utiliser une procédure de regroupement m'était venue à l'esprit. J'imagine que le défi serait de bien capturer et pondérer les caractéristiques de courbe possibles au niveau individuel d'une manière théoriquement significative. Je vais voir comment ça marche en kml.

— Jeromy Anglim

1

Eh bien, cela fonctionne plutôt bien, bien que l'interface soit affreuse (et je connais le gars qui l'a construite :) - je l'utilisais il y a deux mois pour séparer des groupes cliniques sur la base de profils individuels sur des mesures de développement (Brunet-Lézine).

— chl

1

Voici une autre référence principale pour la FDA: psych.mcgill.ca/misc/fda

— Mike Lawrence du

1

J'ai trouvé cette introduction à la FDA link par Ramsay (2008), particulièrement accessible. Gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf

— Jeromy Anglim

8

Je recommanderais de regarder quelques articles de Heping Zhang en utilisant des splines adaptatives pour la modélisation de données longitudinales:

De plus, voir la page MASAL pour les logiciels comprenant un package R.

— ars
source

6

Il me semble que les modèles de mélange de croissance pourraient vous permettre d’examiner votre variance d’erreur. ( PDF ici). (Je ne suis pas sûr de ce que sont les modèles hétéroscédastiques multiplicatifs, mais je devrai absolument les vérifier).

Les modèles de trajectoires basés sur des groupes latents sont devenus très populaires ces derniers temps en criminologie. Mais beaucoup de gens prennent simplement pour acquis que des groupes existent réellement, et certaines recherches astucieuses ont montré que vous trouverez des groupes même dans des données aléatoires. Il convient également de noter que l'approche de modélisation basée sur le groupe de Nagin ne vous permet pas d'évaluer votre erreur (et honnêtement, je n'ai jamais vu de modèle qui ressemblerait à une discontinuité).

Bien que cela soit difficile avec 20 points dans le temps, il pourrait être utile de créer des heuristiques simples pour identifier des modèles à des fins exploratoires (par exemple, toujours faible ou toujours élevé, coefficient de variation). J'envisage des graphiques sparkline dans un tableur ou des tracés de coordonnées parallèles, mais je doute qu'ils soient utiles (honnêtement, je n'ai jamais vu de tracé de coordonnées parallèles très instructif).

Bonne chance

— Andy W
source

@chl, pas de problème, merci pour toutes les ressources que vous avez énumérées ici.

— Andy W

Bon point sur les groupes latents. J'ai vu plusieurs applications d'analyse de classe latente et d'analyse de groupe où il semble ne constituer qu'une division continue de catégories int telles que low & high ( jeromyanglim.blogspot.com/2009/09/… ). Cependant, j'ai des données longitudinales au niveau individuel qui semblent avoir l'air de provenir de processus générateurs de données catégoriquement distincts (par exemple, toujours élevé, toujours faible, en augmentation progressive, en augmentation puis abrupte, etc.) et au sein de catégories il y a plus de variation continue des paramètres.

— Jeromy Anglim

@ Jeromy, je ne pense pas que les travaux que j'ai cités décourageraient les gens d'utiliser de telles méthodes pour identifier les groupes latents. Je dirais que le but du travail est que vous ne pouvez pas utiliser de telles méthodes uniquement pour déduire l'existence de groupes, car vous trouverez toujours des groupes, même dans des données aléatoires. Une interprétation plus subjective dépend de la nature réelle des groupes ou des artefacts de la méthode. Vous pouvez identifier certaines théories logiques qui génèrent de tels processus, puis voir si les groupes identifiés s’inscrivent dans ces théories.

— Andy W

5

Quatre ans après avoir posé cette question, j'ai appris quelques choses, alors je devrais peut-être ajouter quelques idées.

Je pense que la modélisation hiérarchique bayésienne fournit une approche flexible à ce problème.

Logiciels : des outils tels que jags, stan, WinBugs, etc. potentiellement combinés à leurs packages d'interface R respectifs (par exemple, rjags, rstan) facilitent la spécification de tels modèles.

Variation d'erreur dans la personne: les modèles bayésiens permettent de spécifier facilement la variance d'erreur dans la personne en tant que facteur aléatoire variant d'une personne à l'autre.

$y$ $i=1,..., n$ $j=1,...J$

y_{je j} ~ N (μ_{je}, σ_{je}^{2})

$y_{ij}\sim N(\mu_i, \sigma^2_i)$

μ_{je} = γ

$\mu_i = \gamma$

γ ~ N (μ_{γ}, σ_{γ}^{2})

$\gamma \sim N(\mu_\gamma, \sigma^2_\gamma)$

σ_{je} ~ g une m m une (α, β)

$\sigma_i \sim \rm{Gamma}(\alpha, \beta)$

Ainsi, l'écart type de chaque personne pourrait être modélisé comme une distribution gamma. J’ai trouvé que c’était un paramètre important dans de nombreux domaines psychologiques, où les gens varient dans leur ampleur dans le temps.

Classes de courbes latentes: je n'ai pas encore exploré cette idée, mais il est relativement simple de spécifier au moins deux fonctions de génération de données possibles pour chaque individu, puis de laisser le modèle bayésien choisir le modèle le plus probable pour un individu donné. Ainsi, vous obtiendrez généralement des probabilités postérieures pour chaque individu en ce qui concerne la forme fonctionnelle qui décrit les données de l’individu.

En guise d’esquisse d’une idée de modèle, vous pouvez obtenir les éléments suivants:

y_{je j} ~ N (μ_{je j}, σ^{2})

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

μ_{je j} = γ_{je} λ_{je j}^{(1)} + (1 - γ_{je}) λ_{je j}^{(2)}

$\mu_{ij} = \gamma_i \lambda_{ij}^{(1)} + (1 - \gamma_i) \lambda_{ij}^{(2)}$

λ_{je j}^{(1)} = θ_{1 je}^{(1)} + θ_{2 je}^{(1)} \exp (- θ_{3 je}^{(1)})

$\lambda_{ij}^{(1)} = \theta^{(1)}_{1i} + \theta^{(1)}_{2i} \exp(-\theta^{(1)}_{3i})$

λ_{je j}^{(2)} = θ_{1 je}^{(2)} + θ_{2 je}^{(2)} X_{je j} + θ_{3 je}^{(2)} X_{je j}^{2}

$\lambda_{ij}^{(2)} =\theta^{(2)}_{1i} + \theta^{(2)}_{2i} x_{ij} + \theta^{(2)}_{3i} x^2_{ij}$

γ_{je} = B e r n o vous l l je (π_{je})

$\gamma_i = \rm{Bernoulli}(\pi_i)$

Où $x_{ij}$ est le temps et $\lambda_{ij}^{(1)}$ représente les valeurs attendues pour un modèle exponentiel à trois paramètres et $\lambda_{ij}^{(2)}$ représente les valeurs attendues pour un modèle quadratique. $\pi_i$ représente la probabilité que le modèle choisisse $\lambda_{ij}^{(1)}$ .

— Jeromy Anglim
source

Je me suis également orienté vers le cadre bayésien et lisais l'utilisation de processus gaussiens pour l'analyse de séries chronologiques de formes de fonctions incertaines. On ne sait toujours pas comment cela peut être appliqué au cas de données hiérarchiques (voir ma requête sans réponse ici: groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ )

— Mike Lawrence

3

John Fox a une excellente annexe disponible en ligne qui utilise nlme pour examiner les données longitudinales. Cela peut vous être utile:

http://cran.r-project.org/doc/contrib/Fox-Companion/appendix-mixed-models.pdf

Il y a beaucoup de bonnes choses là-bas (et les livres de Fox sont généralement assez bons!).

— Dav Clark
source

2

Lien brisé. Cependant, il est disponible sur la page web de l'auteur ici

— Glen_b -Reinstate Monica