Comment puis-je déterminer si un modèle de survie avec des données manquantes est approprié?

9

Pour simplifier un peu, j'ai environ un million d'enregistrements qui enregistrent l'heure d'entrée et de sortie des personnes dans un système s'étalant sur une dizaine d'années. Chaque enregistrement a une heure d'entrée, mais pas chaque enregistrement a une heure de sortie. La durée moyenne dans le système est d'environ 1 an.

Les temps de sortie manquants se produisent pour deux raisons:

La personne n'a pas quitté le système au moment où les données ont été saisies.
L'heure de sortie de la personne n'a pas été enregistrée. Cela arrive à dire 50% des enregistrements

Les questions d'intérêt sont:

Les gens passent-ils moins de temps dans le système et combien de temps en moins.
Y a-t-il plus de temps de sortie enregistrés et combien.

Nous pouvons modéliser cela en disant que la probabilité qu'une sortie soit enregistrée varie linéairement avec le temps, et que le temps dans le système a un Weibull dont les paramètres varient linéairement avec le temps. On peut alors faire une estimation du maximum de vraisemblance des différents paramètres et globe oculaire les résultats et les juger plausibles. Nous avons choisi la distribution de Weibull parce qu'elle semble être utilisée pour mesurer les durées de vie et est amusante à dire, par opposition à un meilleur ajustement des données que, disons, une distribution gamma.

Où dois-je chercher pour obtenir un indice sur la façon de procéder correctement? Nous sommes quelque peu avertis mathématiquement, mais pas très avertis statistiquement.

survival missing-data

— deinst
source

5

Le moyen de base pour voir si vos données sont Weibull est de tracer le journal des dangers cumulatifs en fonction du journal des temps et de voir si une ligne droite pourrait être un bon ajustement. Le danger cumulatif peut être trouvé à l'aide de l'estimateur non paramétrique de Nelson-Aalen. Il existe des diagnostics graphiques similaires pour la régression de Weibull si vous ajustez vos données avec des covariables et que certaines références suivent.

Le texte de Klein & Moeschberger est assez bon et couvre beaucoup de terrain avec la construction de modèles / diagnostics pour les modèles paramétriques et semi-paramétriques (bien que principalement ces derniers). Si vous travaillez dans R, le livre de Theneau est plutôt bon (je crois qu'il a écrit le package de survie ). Il couvre beaucoup de Cox PH et les modèles associés, mais je ne me souviens pas s'il couvre beaucoup les modèles paramétriques, comme celui que vous construisez.

BTW, est-ce un million de sujets chacun avec une entrée / sortie ou des événements d'entrée / sortie récurrents pour un plus petit groupe de personnes? Êtes-vous en train de conditionner votre probabilité de tenir compte du mécanisme de censure?

— ars
source

Merci, c'est exactement ce que je cherchais. Il s'agit essentiellement d'un million de sujets ayant chacun un temps d'entrée et de sortie. Oui, nous nous préparons à tenir compte de la censure.

— deinst

2

Vous pouvez utiliser le modèle estimé pour prédire les heures de sortie de toutes les personnes de votre système. Vous pouvez ensuite comparer les temps de sortie estimés avec les temps de sortie réels (où vous avez ces données) et calculer une métrique telle que RMSE pour évaluer la qualité de vos prédictions, ce qui vous donnera à son tour une idée de l'ajustement du modèle. Voir aussi ce lien .

1

Avec un millon de points et un modèle à 8 paramètres, un test d'ajustement comme le chi carré me dit qu'il n'y a pratiquement aucune chance que le modèle soit correct. (Ce qui n'est pas surprenant, car il existe d'innombrables facteurs influençant la réalité qui ne sont pas dans le modèle) RMSE me donne une idée de la qualité du modèle, mais ne me donne pas une idée s'il existe un meilleur modèle

— deinst

Eh bien, pour savoir s'il existe un meilleur modèle, vous pouvez soit expérimenter différentes formulations, soit utiliser différents graphiques (par exemple, temps de sortie en fonction du temps) pour voir si les données sont cohérentes avec les hypothèses de votre modèle. Vous pouvez également tracer les temps de sortie prévus pour un petit échantillon sélectionné au hasard par rapport aux temps réels pour des idées d'amélioration du modèle.