Vous avez fondamentalement raison sur l'organisation des données. Si vous avez des cas organisés comme ceci:
ID M1 M2 M3 EVENT
Vous souhaiterez probablement réorganiser les données afin qu'elles ressemblent à ceci:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
J'appelle cela une conversion d'un format large à un format long. Cela se fait facilement en R en utilisant la reshape()
fonction ou encore plus facilement avec le reshape2
package.
Personnellement, je garderais le ID
champ de son utilisation potentielle pour identifier une source de variation dans un modèle à effets mixtes. Mais ce n'est pas nécessaire (comme l'a souligné @BerndWeiss). Ce qui suit suppose que vous voudriez le faire. Sinon, ajustez un modèle similaire glm(...,family=binomial)
sans les termes à effet aléatoire.
Le lme4
package dans R s'adaptera à un modèle de régression logistique à effets mixtes similaire à celui dont vous parlez, sauf avec un effet aléatoire ou deux pour tenir compte de la variabilité des coefficients entre les sujets ( ID
). Voici un exemple de code pour ajuster un exemple de modèle si vos données sont stockées dans un bloc de données appelé df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Ce modèle permet aux TIME
et les intercept
coefficients varient de façon aléatoire à travers ID. En d'autres termes, il s'agit d'un modèle mixte hiérarchique linéaire de mesures imbriqué chez des individus.
Une autre forme de modèle d'historique d'événement temporel discret se divise TIME
en variables muettes et s'adapte à chacune comme paramètre. C'est essentiellement le cas discret du modèle Cox PH parce que la courbe de risque n'est pas limitée à être linéaire (ou quadratique, ou cependant vous pouvez imaginer transformer le temps). Cependant, vous souhaiterez peut-être vous regrouper TIME
en un ensemble gérable (c'est-à-dire petit) de périodes discrètes s'il y en a beaucoup.
D'autres alternatives impliquent de transformer le temps pour obtenir la bonne courbe de risque. La méthode précédente vous évite d'avoir à le faire, mais la méthode précédente est moins parcimonieuse que celle-ci (et le cas linéaire d'origine que j'ai posé) car vous pouvez avoir beaucoup de points dans le temps et donc beaucoup de paramètres de nuisance.
Une excellente référence sur ce sujet est l' analyse appliquée des données longitudinales de Judith Singer et John Willet : Modélisation du changement et de l'occurrence d'événements .
self-study
balise.)