Comment le coxphe () de R gère-t-il les mesures répétées?

Le contexte

J'essaie de comprendre comment coxph () de R accepte et gère les entrées répétées pour les sujets (ou le patient / client si vous préférez). Certains appellent ce format long, d'autres l'appellent «mesures répétées».

Voir par exemple l'ensemble de données qui inclut la colonne ID dans la section Réponses à:

Meilleurs packages pour les modèles Cox avec des covariables variant dans le temps

Supposons également que les covariables varient dans le temps et qu'il existe exactement une variable de censure (c'est-à-dire un événement), qui est binaire.

Des questions

1) Dans la réponse du lien ci-dessus, si ID n'est pas donné comme paramètre dans l'appel à coxph (), les résultats devraient-ils être les mêmes que l'inclusion de cluster (ID) comme paramètre dans coxph ()?

J'ai tenté de rechercher de la documentation, mais les éléments suivants ne semblent pas aborder clairement (1): https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

2) Si la réponse à (1) est «non», alors (mathématiquement) pourquoi? Il semble que cluster () dans coxph () cherche des corrélations entre les sujets selon la sous-section «cluster» à la p. 20 à

https://cran.r-project.org/web/packages/survival/survival.pdf

3) Question vague: comment le coxph () avec des mesures répétées se compare-t-il aux méthodes de régression de Frailtypack de R?

Addenda

Les conseils suivants sur l'utilisation du cluster (ID):

Existe-t-il une version prenant en compte les mesures répétées du test du logrank?

de même que:

https://stat.ethz.ch/pipermail/r-help//2013-July/357466.html

Approche GEE: ajouter "+ cluster (sujet)" à l'énoncé du modèle dans coxph Approche des modèles mixtes: ajouter "+ (1 | sujet)" à l'énoncé du modèle dans coxme.

Merci d'avance!

— Quetzalcoatl
source

Réponses:

L'inclusion cluster(ID)ne modifie pas les estimations ponctuelles des paramètres. Cela change cependant la façon dont les erreurs standard sont calculées.

Plus de détails peuvent être trouvés dans le livre de Therneau & Grambsch Extending the Cox Model , chapitre 8.2. Notez que dans leur exemple, ils utilisent method = "breslow"comme correction pour les liens, mais aussi avec la valeur par défaut ( method = "efron") un calcul similaire pour les se sera utilisé, et apparaît dans le résumé comme "se robuste".
Si le cluster (ID) est utilisé, une estimation "robuste" des erreurs standard est imposée et une éventuelle dépendance entre les sujets est mesurée (par exemple par les erreurs standard et les scores de variance). En revanche, ne pas utiliser de cluster (ID) impose une indépendance à chaque observation et plus d'informations sont supposées dans les données. En termes plus techniques, la fonction de score pour les paramètres ne change pas, mais la variance de ce score change. Un argument plus intuitif est que 100 observations sur 100 individus fournissent plus d'informations que 100 observations sur 10 individus (ou grappes).
Vague en effet. En bref, +frailty(ID)dans coxph()les modèles de fragilité standard avec des effets aléatoires gamma ou log-normaux et avec un risque / intensité de base non paramétrique. frailtypackutilise une ligne de base paramétrique (également des versions flexibles avec des splines ou des fonctions constantes par morceaux) et s'adapte également à des modèles plus complexes, tels que la fragilité corrélée, la fragilité imbriquée, etc.

Enfin, +cluster()c'est un peu dans l'esprit de GEE, en ce que vous prenez les équations de score à partir d'une vraisemblance avec des observations indépendantes, et utilisez un estimateur "robuste" différent pour les erreurs standard.

modifier: Merci @Ivan pour les suggestions concernant la clarté du message.

— Theodor
source

Je vous remercie. Concernant (2): peut "C'est parce que si vous supposez (à tort) ..." être remplacé par "Si vous n'utilisez pas de cluster (ID) dans l'appel à coxph (), alors vous supposez à tort ...."

— Quetzalcoatl

Je voulais dire: si les observations sont groupées, alors elles peuvent être indépendantes ou non. En supposant qu'ils sont indépendants (c'est-à-dire qu'ils n'utilisent pas le cluster (id)) est presque certainement faux dans ce cas, mais il n'y a aucune idée de le savoir à l'avance

— Theodor

(2) peut être reformulé comme suit: si le cluster (ID) est utilisé, une estimation "robuste" des erreurs standard est imposée et la dépendance possible entre les sujets est mesurée (par exemple par les erreurs standard et les scores de variance). En revanche, ne pas utiliser de grappe (ID) impose une indépendance à chaque observation et davantage d'informations sont supposées dans les données.

— Quetzalcoatl

Le lien de référence que vous avez fourni dans (1) devrait être: springer.com/us/book/9780387987842 (en supposant que vous citez le livre de Therneau et Grambsch)

— Quetzalcoatl

Notez également: comme expliqué dans le livre de Therneau et Grambsch, la raison pour laquelle la réponse dans (1) ci-dessus est correcte est parce que coxph () utilise la méthode Breslow par défaut pour les liens.

— Quetzalcoatl

Voici une réponse d'une survivalvignette de package que j'ai trouvée utile - elle est liée dans la première réponse à la première question à laquelle vous avez lié:

Meilleurs packages pour les modèles Cox avec des covariables variant dans le temps

Ils font référence à la configuration de données de formulaire long, ou aux données avec des entrées répétées pour les sujets.

Une question courante avec cette configuration de données est de savoir si nous devons nous soucier des données corrélées, car un sujet donné a plusieurs observations. La réponse est non, nous ne le faisons pas. La raison en est que cette représentation est simplement une astuce de programmation. Les équations de vraisemblance à tout moment n'utilisent qu'une seule copie de n'importe quel sujet, le programme sélectionne la bonne ligne de données à chaque fois. Il existe deux exceptions à cette règle:

Lorsque les sujets ont plusieurs événements, les lignes des événements sont corrélées au sein du sujet et une variance de cluster est nécessaire.

Lorsqu'un sujet apparaît dans des intervalles qui se chevauchent. Cependant, il s'agit presque toujours d'une erreur de données, car cela correspond à deux copies du sujet présentes dans les mêmes strates en même temps, par exemple, elle pourrait se retrouver lors d'une fête.

L'exemple qu'ils donnent est

fit <- coxph(Surv(time1, time2, status) ~ age + creatinine, data=mydata)

suggérant que si vous fournissez deux fois (début et fin de période) à Survau lieu d'une, vous coxph()comprendrez le reste.

— BLT
source

À moins que j'aie mal compris quelque chose, je pense que ce commentaire est trompeur? Nous devons nous préoccuper des données corrélées si nous voulons obtenir des estimations précises de la variance, pourquoi donc l'ajout d'un terme de cluster + (ID) modifie-t-il les termes de la variance estimée?

— AP30 le