Explication de Layman de la censure dans l'analyse de survie

13

J'ai lu ce qu'est la censure et comment elle doit être prise en compte dans l'analyse de survie, mais j'aimerais en entendre une définition moins mathématique et une définition plus intuitive (les images seraient super!). Quelqu'un peut-il me fournir une explication de 1) la censure et 2) comment cela affecte des choses comme les courbes de Kaplan-Meier et la régression de Cox?

survival cox-model censoring

— RustyStatistician
source

Je suggère d'écouter le podcast Linear Digression sur l'analyse de survie et d'entendre leur définition simplifiée de la censure gauche et droite et la motivation pour le modèle cox.

— Uri Goren

16

La censure est souvent décrite en comparaison avec la troncature . Une bonne description des deux processus est fournie par Gelman et al (2005, p. 235):

Les données tronquées diffèrent des données censurées, car aucun nombre d'observations au-delà du point de troncature n'est disponible. Avec la censure, les valeurs des observations au-delà du point de troncature sont perdues, mais leur nombre est observé.

La censure ou la troncature peut se produire pour des valeurs supérieures à un certain niveau (censure à droite), inférieures à un certain niveau (censure à gauche), ou les deux.

$2.0$ $2.0$

Un exemple intuitif de censure est que vous demandez à vos répondants leur âge, mais enregistrez-le uniquement jusqu'à une certaine valeur et tous les âges au-dessus de cette valeur, disons 60 ans, sont enregistrés comme "60+". Cela conduit à avoir des informations précises pour les valeurs non censurées et aucune information sur les valeurs censurées.

Un exemple de censure pas si typique et réel a été observé dans les résultats des examens de matura polonais qui ont attiré beaucoup d'attention sur Internet . L'examen est passé à la fin du lycée et les étudiants doivent le réussir pour pouvoir postuler à l'enseignement supérieur. Pouvez-vous deviner à partir de l'intrigue ci-dessous quelle est la quantité minimale de points dont les élèves ont besoin pour réussir l'examen? Il n'est pas surprenant que «l'écart» dans une distribution par ailleurs normale puisse être facilement «comblé» si vous prenez une fraction appropriée des scores surreprésentés juste au-dessus de la limite de censure.

En cas d'analyse de survie

la censure se produit lorsque nous avons des informations sur le temps de survie individuel, mais nous ne savons pas exactement le temps de survie

(Kleinbaum et Klein, 2005, p. 5). Par exemple, vous traitez des patients avec un médicament et les observez jusqu'à la fin de votre étude, mais vous ne savez pas ce qui leur arrive après la fin de l'étude (y a-t-il eu des rechutes ou des effets secondaires?), La seule chose que vous savez, c'est qu'ils " survécu " au moins jusqu'à la fin de l'étude.

Vous trouverez ci-dessous un exemple de données générées à partir de la distribution de Weibull modélisée à l'aide de l'estimateur de Kaplan – Meier. La courbe bleue marque le modèle estimé sur l'ensemble de données complet, dans le graphique du milieu, vous pouvez voir l'échantillon censuré et le modèle estimé sur les données censurées (courbe rouge), à droite, vous voyez l'échantillon tronqué et le modèle estimé sur cet échantillon (courbe rouge). Comme vous pouvez le voir, les données manquantes (troncature) ont un impact significatif sur les estimations, mais la censure peut être facilement gérée à l'aide de modèles d'analyse de survie standard.

Cela ne signifie pas que vous ne pouvez pas analyser des échantillons tronqués, mais dans de tels cas, vous devez utiliser des modèles de données manquantes qui tentent de «deviner» les informations inconnues.

Kleinbaum, DG et Klein, M. (2005). Analyse de survie: un texte d'auto-apprentissage. Springer.

Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2005). Analyse des données bayésiennes. Chapman & Hall / CRC.

— Tim
source

Savez-vous d'où vient ce complot Matura? J'ai essayé de googler et de continuer à obtenir le lien reddit mais celui-ci ne contient aucune référence. Cela mène simplement à imgur.com sans aucune attribution. MISE À JOUR: Je l'ai trouvé. cke.edu.pl//images/files/matura/informacje_o_wynikach/2013/… page 18.

— amibe dit Reinstate Monica

1

@amoeba si vous étiez intéressé par plus de détails, n'hésitez pas à me contacter. La plupart des documents sur ce sujet que je connais sont malheureusement en polonais. La photo est une chose mais un de mes amis a fait une analyse plus détaillée de ces données (au fait, elles sont disponibles sur demande).

— Tim

2

La censure est au cœur de l'analyse de survie.

L'idée de base est que l'information est censurée, elle est invisible pour vous. En termes simples, une distribution censurée des durées de vie est obtenue si vous enregistrez les durées de vie avant la mort de tous les membres de l'échantillon. Si vous pensez que le temps se déplace "vers la droite" sur l'axe X, cela peut être appelé censure à droite.

Il existe également d'autres types: la censure à gauche et la censure des fenêtres. Voir par exemple le texte d'Allison de 1984 sur l'analyse de l'historique des événements, publié par Sage pour une introduction instructive.

Exemple: Si vous calculez les taux de divorce dans la population, vous souhaitez uniquement inclure les personnes qui risquent de divorcer (c'est-à-dire qu'elles sont mariées). Si les gens mettent fin à leur mariage pour des raisons autres que le divorce (deuil, annulation), vous voulez les censurer. Ils ne risquent plus de divorcer. Vos estimations (et graphiques) de Kaplan-Meier ne doivent pas inclure les observations censurées après le moment où elles sont censurées, mais doivent les inclure jusqu'à ce moment.

— torkildl
source

Graphiques ou tracés?

— RustyStatistician