La censure est souvent décrite en comparaison avec la troncature . Une bonne description des deux processus est fournie par Gelman et al (2005, p. 235):
Les données tronquées diffèrent des données censurées, car aucun nombre d'observations au-delà du point de troncature n'est disponible. Avec la censure, les
valeurs des observations au-delà du point de troncature sont perdues, mais leur nombre est observé.
La censure ou la troncature peut se produire pour des valeurs supérieures à un certain niveau (censure à droite), inférieures à un certain niveau (censure à gauche), ou les deux.
2.02.0
Un exemple intuitif de censure est que vous demandez à vos répondants leur âge, mais enregistrez-le uniquement jusqu'à une certaine valeur et tous les âges au-dessus de cette valeur, disons 60 ans, sont enregistrés comme "60+". Cela conduit à avoir des informations précises pour les valeurs non censurées et aucune information sur les valeurs censurées.
Un exemple de censure pas si typique et réel a été observé dans les résultats des examens de matura polonais qui ont attiré beaucoup d'attention sur Internet . L'examen est passé à la fin du lycée et les étudiants doivent le réussir pour pouvoir postuler à l'enseignement supérieur. Pouvez-vous deviner à partir de l'intrigue ci-dessous quelle est la quantité minimale de points dont les élèves ont besoin pour réussir l'examen? Il n'est pas surprenant que «l'écart» dans une distribution par ailleurs normale puisse être facilement «comblé» si vous prenez une fraction appropriée des scores surreprésentés juste au-dessus de la limite de censure.
En cas d'analyse de survie
la censure se produit lorsque nous avons des informations sur le temps de survie individuel, mais nous ne savons pas exactement le temps de survie
(Kleinbaum et Klein, 2005, p. 5). Par exemple, vous traitez des patients avec un médicament et les observez jusqu'à la fin de votre étude, mais vous ne savez pas ce qui leur arrive après la fin de l'étude (y a-t-il eu des rechutes ou des effets secondaires?), La seule chose que vous savez, c'est qu'ils " survécu " au moins jusqu'à la fin de l'étude.
Vous trouverez ci-dessous un exemple de données générées à partir de la distribution de Weibull modélisée à l'aide de l'estimateur de Kaplan – Meier. La courbe bleue marque le modèle estimé sur l'ensemble de données complet, dans le graphique du milieu, vous pouvez voir l'échantillon censuré et le modèle estimé sur les données censurées (courbe rouge), à droite, vous voyez l'échantillon tronqué et le modèle estimé sur cet échantillon (courbe rouge). Comme vous pouvez le voir, les données manquantes (troncature) ont un impact significatif sur les estimations, mais la censure peut être facilement gérée à l'aide de modèles d'analyse de survie standard.
Cela ne signifie pas que vous ne pouvez pas analyser des échantillons tronqués, mais dans de tels cas, vous devez utiliser des modèles de données manquantes qui tentent de «deviner» les informations inconnues.
Kleinbaum, DG et Klein, M. (2005). Analyse de survie: un texte d'auto-apprentissage. Springer.
Gelman, A., Carlin, JB, Stern, HS et Rubin, DB (2005). Analyse des données bayésiennes. Chapman & Hall / CRC.