Quelle est la différence entre la censure et la troncature?


30

Dans le livre Modèles et méthodes statistiques pour les données à vie , il est écrit:

Censure: lorsqu'une observation est incomplète en raison d'une cause aléatoire.
Troncature: lorsque la nature incomplète de l'observation est due à un processus de sélection systématique inhérent au plan d'étude.

Qu'entend-on par «processus de sélection systématique inhérent au plan d'étude» dans la définition de la troncature?

Quelle est la différence entre la censure et la troncature?


3
Jetez un œil à la réponse ici .
Dimitriy V. Masterov

3
Censure: "Nous avons eu une observation quelque part dans cette région mais nous ne savons pas ce que c'est". Troncature: "Observation? Quelle observation?"
Glen_b -Reinstate Monica

D'où vos définitions sont-elles citées?
Glen_b -Reinstate Monica

1
@Glen_b J'ai modifié ma question.
ABC du

Réponses:


57

Les définitions varient et les deux termes sont parfois utilisés de manière interchangeable. Je vais essayer d'expliquer les utilisations les plus courantes en utilisant l'ensemble de données suivant:

11.25245

Censure : certaines observations seront censurées, ce qui signifie que nous savons seulement qu'elles sont inférieures (ou supérieures) à certaines. Cela peut par exemple se produire si nous mesurons la concentration d'un produit chimique dans un échantillon d'eau. Si la concentration est trop faible, l'équipement de laboratoire ne peut pas détecter la présence du produit chimique. Il peut cependant toujours être présent, donc nous savons seulement que la concentration est inférieure à la limite de détection du laboratoire.

Si la limite de détection est de 1,5, de sorte que les observations qui tombent en dessous de cette limite soient censurées, notre exemple de jeu de données deviendrait: c'est-à-dire que nous ne connaissons pas le les valeurs réelles des deux premières observations, mais seulement qu'elles sont inférieures à 1,5.

<1.5<1.5245,

Troncature : le processus générant les données est tel qu'il est seulement possible d'observer les résultats au-dessus (ou en dessous) de la limite de troncature. Cela peut par exemple se produire si des mesures sont prises à l'aide d'un détecteur qui n'est activé que si les signaux qu'il détecte sont supérieurs à une certaine limite. Il peut y avoir beaucoup de signaux entrants faibles, mais nous ne pouvons jamais dire en utilisant ce détecteur.

Si la limite de troncature est de 1,5, notre exemple de jeu de données deviendrait et nous ne saurions pas qu'il y avait en fait deux signaux qui n'étaient pas enregistrés.

245

Donc, sur cette utilisation des termes, "censuré" est trompeur si l'on pense en termes d'utilisation non technique du mot? c'est-à-dire dans ce sens statistique, cela signifie quelque chose comme "vague" ou "seulement connu pour tomber dans une certaine fourchette", plutôt que quelque chose comme le sens non technique - c'est-à-dire supprimé ou supprimé, comme lorsqu'un livre est retiré des magasins parce que de son contenu.
Mars

3
Pour un exemple concret de troncature, les compagnies d'assurance automobile n'entendent jamais parler d'accidents où les dommages sont inférieurs à la franchise, car les gens n'y font pas rapport. C'est la troncature gauche; nous ne voyons jamais du tout de données sur ces incidents. Pour un exemple de censure à droite, lorsqu'un patient malade décide d'arrêter de voir son médecin ou déménage dans une autre ville, tout ce que l'on sait, c'est qu'il était en vie le jour de son départ, mais nous ne savons pas quand il est décédé. .
David White

@Mars: Je suis d'accord pour dire que cela sonne à l'envers par rapport à une utilisation non technique moderne où la «censure» supprime toute trace et la «troncature» supprime les détails. Mais dans les statistiques, la «censure» est utilisée dans le sens non technique le plus ancien où un censeur peut supprimer mais ne pas éliminer toute trace de quelque chose: des boîtes noires ou des flous placés sur des parties offensives d'une photo ou d'une vidéo, des bips qui couvrent le blasphème. à la radio, ou des lettres de soldats à domicile ou des documents classifiés où les parties censurées (terme plus moderne "caviardé") sont occultées.
Wayne

Imaginez que je mesure le laps de temps entre deux types d'événements. Mais je ne peux enregistrer un événement que pendant 1 an. Le temps sera-t-il censuré ou tronqué?
skan

4

Tout comme dans une perspective d'un autre domaine (programmation), la censure et la troncature sont deux opérations distinctes.

Lorsque je travaille avec un ensemble de données sensibles, par exemple des numéros de sécurité sociale et des numéros de téléphone, je peux le censurer ou le faire censurer avant que l'accès ne soit accordé:

123-12-1234 => 999-99-9999
567-56-5678 => 999-99-9999
(906) 123-4567 => (000) 000-0000

Cela permet au reste de l'application de fonctionner comme il le ferait normalement, avec des structures de données similaires, mais sans réel contenu informationnel ni diffusion d'informations privées.

La troncature, en revanche, ne fait généralement que couper les valeurs restantes après un certain point. Pour travailler sur une application, je n'ai pas besoin de centaines de milliers d'enregistrements, je n'ai peut-être besoin que de ~ 50 de chacun, ce qui rend l'accès aux données beaucoup plus rapide et les ensembles de données plus petits.

Une variante similaire de troncature consiste à insérer une valeur dans une colonne ou un type de données de longueur ou de précision limitée:

abcdefghijklmnopqrstuv => abcdef
10.23412421345 => 10.23
10.92455311 => 10

1
+1 Il est important de savoir que la censure et la troncature peuvent avoir des significations complètement différentes en dehors des statistiques!
MånsT
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.