De manière descriptive, je proposerais "un échantillon de données est censuré si certaines observations qu'il contient prennent ou constituent les valeurs extrêmes de l'échantillon, mais leur vraie valeur est en dehors de la plage d'échantillonnage observée". Mais c'est d'une simplicité trompeuse.
Voyons donc d'abord comment conclure qu'un ensemble de données est censuré, ce qui nous amènera naturellement à discuter des cas présentés dans la question.
Supposons que l'on nous donne l'ensemble de données suivant à partir d'une variable aléatoire discrète , pour laquelle la seule chose que nous savons est qu'elle n'est pas négative:X
{0,1,1,2,2,2,2,2,2,2}
Peut-on dire que l'ensemble de données est censuré? Eh bien, nous avons le droit de penser que ce pourrait être le cas, mais ce n'est pas nécessairement le cas:
1) peut avoir l'intervalle { 0 , 1 , 2 } et une distribution de probabilité { 0,1 , 0,1 , 0,8 } . Si c'est effectivement le cas, il semble qu'il n'y ait pas de censure ici, juste un échantillon "anticipé" d'une telle variable aléatoire, avec un support borné et une distribution très asymétrique. X{0,1,2}{0.1,0.1,0.8}
2) Mais il peut être le cas que a la plage { 0 , 1 , . . . , 9 } avec une distribution uniforme de probabilité { 0,1 , 0,1 , . . .0 .1 } , auquel cas notre échantillon de données est très probablement censuré. X{0,1,...,9}{0.1,0.1,...0.1}
Comment savoir? Nous ne pouvons pas, sauf si nous possédons des connaissances ou des informations préalables , qui nous permettront de plaider en faveur de l'un ou l'autre cas. Les trois cas présentés dans la question représentent-ils une connaissance préalable de l'effet de la censure? Voyons voir:
Le cas A) décrit une situation où, pour certaines observations, nous n'avons que des informations qualitatives comme «très grandes», «très petites», etc., ce qui nous amène à attribuer à l'observation une valeur extrême. Notez que le simple fait de ne pas connaître la valeur réelle réalisée ne justifie pas l'attribution d'une valeur extrême. Il faut donc avoir quelques informations à l'effet que pour ces observations, leur valeur dépasse ou est inférieure à toutes celles observées. Dans ce cas, la plage réelle de la variable aléatoire est inconnue, mais nos informations qualitatives nous permettent de créer un échantillon censuré (c'est une autre discussion pour savoir pourquoi nous ne supprimons pas simplement les observations pour lesquelles nous ne possédons pas la valeur réelle réalisée). ).
Le cas B) n'est pas un cas de censure, si je comprends bien, mais plutôt un cas d'échantillon contaminé: nos informations a priori nous disent que la valeur maximale de la variable aléatoire ne peut pas dépasser (en raison par exemple d'une loi physique ou d'un droit social -supposons que ce sont les données de notes d'un système de notation qui utilise uniquement les valeurs 1 , (en fait, en regardant le clavier latéral d'un ordinateur, il est plus probable que le 43 ). Mais nous avons également observé la valeur 4 et la valeur 5 . Comment se peut-il? Erreur dans l'enregistrement des données. Mais dans un tel cas, nous ne savons pas avec certitude que les 4 et 5 devraient être tous les 31,2,3454534 sont des et les 5 des 2 !). En «corrigeant» de quelque manière que ce soit l'échantillon, nous ne le rendons pas censuré, car la variable aléatoire n'est pas censée se situer dans la plage enregistrée en premier lieu (il n'y a donc pas de vrais probabilités attribuées aux valeurs 4 et 5 ). 15245
Le cas C) fait référence à un échantillon conjoint, où nous avons une variable dépendante et des prédicteurs. Ici, nous pouvons avoir un échantillon où les valeurs de la variable dépendante sont concentrées à l'un ou aux deux extrêmes, en raison de la structure du phénomène étudié: Dans l'exemple habituel "heures travaillées", les chômeurs ne travaillent pas mais ils auraient a bien fonctionné (réfléchissez bien: ce cas relève-t-il vraiment de la "définition" descriptive au début de cette réponse?). Les inclure dans la régression avec des heures enregistrées «zéro» crée donc un biais. À l'autre extrême, le nombre maximal d'heures travaillées peut être considéré comme pouvant atteindre, disons 16/ jour, et il peut y avoir des employés qui seraient prêts à travailler autant pour un salaire donné. Mais le cadre juridique ne le permet pas et nous n'observons donc pas de telles "heures travaillées". Ici, nous essayons d'estimer la " fonction d'offre de travail prévue " - et c'est par rapport à cette variable que l'échantillon est caractérisé comme censuré.
Mais si nous déclarions que ce que nous voulons faire est d'estimer "la fonction d'offre de travail compte tenu du phénomène du chômage et du cadre juridique", l'échantillon ne serait pas censuré, car il refléterait l'effet de ces deux aspects, ce que nous voulons à faire.
Nous voyons donc que caractériser un échantillon de données comme censuré
a) peut provenir de situations différentes et
b) nécessite une certaine attention
- à lui seul le fait qu'il peut être confondu avec le cas de la troncature .