Comparaison longitudinale de deux distributions

J'ai les résultats d'un test sanguin administré à 2500 personnes quatre fois à six mois d'intervalle. Les résultats consistent principalement en deux mesures de la réponse immunitaire - une en présence de certains antigènes de la tuberculose, une en l'absence. Actuellement, chaque test est évalué comme positif ou négatif en fonction de la différence entre la réponse antigénique et la réponse nulle (l'idée étant que si votre système immunitaire répond aux antigènes TB, vous avez probablement été exposé à la bactérie elle-même à un moment donné ). Essentiellement, le test suppose que les distributions d'un individu non exposé de réponses nulles et TB devraient être fondamentalement identiques, alors qu'une personne exposée à la TB aura des réponses TB tirées d'une distribution différente (de valeurs plus élevées). Caveat: les réponses sont très, très anormales, et les valeurs s'agglutinent à la fois au sol naturel et au plafond tronqué par l'instrument.

Cependant, il semble assez clair dans ce contexte longitudinal que nous obtenons des «faux positifs» (pas d'étalon-or réel pour la tuberculose latente, je le crains) qui sont causés par des fluctuations (généralement faibles) des réponses antigènes et nulles. Bien que cela puisse être difficile à éviter dans certaines situations (vous ne pouvez avoir qu'une seule chance de tester quelqu'un), il existe de nombreuses situations dans lesquelles les gens sont systématiquement testés pour la tuberculose chaque année environ - aux États-Unis, cela est courant pour les professionnels de la santé, les militaires, les sans-abri logés dans des abris, etc. Il semble dommage d'ignorer les résultats des tests antérieurs car les critères existants se trouvent être transversaux.

Je pense que ce que j'aimerais faire, c'est ce que je conçois grossièrement comme une analyse longitudinale des mélanges. Tout comme les critères transversaux, j'aimerais pouvoir estimer la probabilité que les réponses TB et nul d'un individu soient tirées de la même distribution - mais que cette estimation intègre les résultats des tests antérieurs, ainsi que les informations de l'échantillon comme un ensemble (par exemple, puis-je utiliser la distribution à l'échelle de l'échantillon des variabilités intraindividuelles pour améliorer mes estimations de la distribution de zéro ou de la tuberculose d'un individu spécifique). La probabilité estimée devrait pouvoir évoluer au fil du temps, bien entendu, pour tenir compte de la possibilité d'une nouvelle infection.

Je me suis complètement tordu en essayant de penser à cela de manière inhabituelle, mais j'ai l'impression que cette conceptualisation est aussi bonne que celle que je vais proposer. Si quelque chose n'a pas de sens, n'hésitez pas à demander des éclaircissements. Si ma compréhension de la situation semble erronée, n'hésitez pas à me le dire. Je vous remercie beaucoup pour votre aide.

En réponse à Srikant: C'est un cas de classification latente (infectée ou non par la tuberculose) en utilisant les deux résultats des tests continus (mais non normaux et tronqués). À l'heure actuelle, cette classification est effectuée à l'aide d'un seuil (dans sa forme simplifiée, TB - néant> 0,35 -> positif). Avec les résultats des tests présentés comme (néant, TB, résultat), les archétypes de base * sont:

Négatif probable: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Positif probable: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Le positif du deuxième test pour le Wobbler est clairement une aberration, mais comment modéliseriez-vous cela? Bien qu'une ligne de ma pensée consiste à estimer la "vraie différence" entre la tuberculose et la néant à chaque point dans le temps en utilisant un modèle à plusieurs niveaux de mesures répétées, il m'est venu à l'esprit que ce que je veux vraiment savoir, c'est si la réponse nulle et la réponse TB de la personne sont issus de la même distribution, ou si leur système immunitaire reconnaît les antigènes TB et s'active, produisant une réponse accrue.

Quant à ce qui pourrait provoquer un test positif autre que l'infection: je ne suis pas sûr. Je soupçonne que ce n'est généralement qu'une variation intra-personne des résultats, mais il y a certainement une possibilité d'autres facteurs. Nous avons des questionnaires à chaque instant, mais je ne les ai pas encore trop examinés.

* Données fabriquées mais illustratives

repeated-measures

— Matt Parker
source

Oh, et n'hésitez pas à retagger - mon navigateur ne fonctionne pas avec la suggestion automatique, donc j'ai du mal à voir ce qui existe.

— Matt Parker,

Votre variable dépendante est-elle continue ou discrète? Ou, peut-être, le résultat du test sous-jacent est continu et il est converti en une réponse discrète (c.-à-d. «Positive», «négative») en fonction d'un certain seuil? Pourriez-vous également expliquer pourquoi un individu passerait de négatif à positif alors qu'il n'est pas exposé à la tuberculose? Un exemple spécifique (avec quelques chiffres ajoutés) d'un tel retournement peut aider.

Les exemples sont vraiment utiles pour visualiser les données. Une autre question concernant votre mise en garde: "les valeurs s'agglutinent au sol et au plafond et que les données ne sont pas normales". Pouvez-vous me dire si (a) les données à l'extrémité inférieure de l'échelle semblent normales et (b) les données à l'extrémité supérieure de l'échelle semblent normales?

Remarque: J'ai apparemment manqué la date limite pour réellement attribuer la prime, alors j'en installe une autre afin de pouvoir correctement récompenser Srikant pour son aide. Plus de réponses sont toujours les bienvenues, mais la prime est pour lui.

— Matt Parker

Réponses:

Ce n'est pas une réponse complète, mais j'espère qu'elle vous donnera quelques idées sur la manière de modéliser la situation de manière cohérente.

Hypothèses

Les valeurs à l'extrémité inférieure de l'échelle suivent une distribution normale tronquée d'en bas.
Les valeurs à l'extrémité supérieure de l'échelle suivent une distribution normale tronquée d'en haut.

(Remarque: je sais que vous avez dit que les données ne sont pas normales mais je suppose que vous faites référence à la distribution de toutes les valeurs alors que les hypothèses ci-dessus se rapportent aux valeurs à l'extrémité inférieure et à l'extrémité supérieure de l'échelle.)
L'état sous-jacent d'une personne (qu'elle ait ou non la tuberculose) suit une chaîne de Markov de premier ordre.

Modèle

Laisser:

$D_i(t)$ $t$ $i^\mbox{th}$
$RTB_i(t)$ $t$ $i^\mbox{th}$
$RN_i(t)$ $t$ $i^\mbox{th}$
$f(RN_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$
$f(RN_i(t) | D_i(t)=1) \sim N(\mu_l,\sigma_l^2) I(RN_i(t) > R_l)$

Les points 4 et 5 reflètent l'idée que la réponse d'une personne au test NILL ne dépend pas de l'état de la maladie.
$f(RTB_i(t) | D_i(t)=0) \sim N(\mu_l,\sigma_l^2) I(RTB_i(t) > R_l)$
$f(RTB_i(t) | D_i(t)=1) \sim N(\mu_u,\sigma_u^2) I(RTB_i(t) < R_u)$
$\mu_u > \mu_l$

Les points 6, 7 et 8 illustrent l'idée que la réponse d'une personne au test TB dépend du statut de la maladie.
$p(t)$ $t$

$\begin{bmatrix} 1-p(t) & p(t) \\ 0 & 1 \end{bmatrix}$

En d'autres termes,

$Prob(D_i(t)=1 | D_i(t-1) = 0) = p(t)$

$Prob(D_i(t)=0 | D_i(t-1) = 0) = 1-p(t)$

$Prob(D_i(t)=1 | D_i(t-1) = 1) = 1$

$Prob(D_i(t)=0 | D_i(t-1) = 1) = 0$

Vos critères de test indiquent que:

$\hat{D}_i(t) = \begin{cases} 1, & RTB_i(t) - RN_i(t) \ge 0.35 \\ 0, & otherwise \end{cases}$

Cependant, comme vous le voyez dans la structure du modèle, vous pouvez réellement paramétrer les seuils et changer tout le problème en celui de quels devraient être vos seuils pour diagnostiquer avec précision les patients. Ainsi, le problème de wobbler semble être plus un problème avec votre choix de seuils que n'importe quoi d'autre.

$p(t)$

J'espère que c'est utile.

Merci, Srikant! Désolé, j'ai en quelque sorte manqué votre commentaire plus tôt. Le cluster supérieur n'est vraiment qu'un pic au plafond - il n'y a pas de variabilité à l'exception de la longue étendue d'uniformité qui le relie à la distribution inférieure, qui est essentiellement comme vous le décrivez. Cela me prendra un certain temps pour analyser votre réponse (d'autant plus que je suis coincé dans IE et que je ne vois pas correctement le LaTeX en ce moment), mais j'apprécie vraiment votre dévouement à cette étrange petite question.

— Matt Parker

Tricky Matt, comme beaucoup de problèmes de statistiques dans le monde réel!

Je commencerais à définir les buts / objectifs de votre étude.

Sans connaître le véritable statut des sujets, il sera difficile de définir les distributions de probabilité pour les tests TB + et TB-. Avez-vous des questions sur les antécédents d'infection tuberculeuse (ou mieux, les antécédents médicaux). De plus, je teste toujours TB + en raison d'une vaccination dans l'enfance - il y a plusieurs décennies - donc les vaccinations précédentes doivent être prises en compte.

Il me semble que votre question intrinsèque est la suivante: les tests de tuberculose répétés affectent-ils les résultats des tests?

Il vaudrait la peine d'obtenir une copie de l'analyse des données longitudinales de Peter Diggle .

Faire une analyse exploratoire des données, en particulier des matrices de nuage de points des résultats du test nul à chaque fois les uns par rapport aux autres, et les résultats des tests TB à chaque fois les uns par rapport aux autres; et les diagrammes de dispersion TB vs nil (à chaque fois). Prenez également les différences (test TB - test Nil) et faites les matrices du nuage de points. Essayez les transformations des données et refaites celles-ci - j'imagine log (TB) - log (Nil) peut aider si les résultats de TB sont très importants par rapport à Nil. Recherchez des relations linéaires dans la structure des corrélations.

Une autre approche consisterait à prendre le résultat de test défini (positif / négatif) et à le modéliser logitudinalement en utilisant un modèle à effets mixtes non linéaire (lien logit). Certaines personnes basculent-elles entre les tests TB + et TB- et est-ce lié à leur test Nil, test TB, TB - Nil ou à une transformation des résultats du test?

— Thylacoleo
source

Merci pour votre réponse. En ce qui concerne l'ignorance du véritable statut: nous avons des questionnaires détaillés et nous sommes bien conscients du problème du vaccin BCG avec le test cutané - en fait, ces tests sanguins sont censés résoudre ce problème car ils utilisent un ensemble d'antigènes différent du PPD que vous suis habitué. C'est presque une question distincte, cependant, et nous allons y travailler un peu plus tard - en ce moment, mon intérêt est de rendre ce test `` conscient à long terme ''.

— Matt Parker,

... surtout parce que certaines personnes passent du négatif au positif, et cela est souvent le résultat de leurs résultats typiques de néant et de tuberculose faisant de petites fluctuations - nul en baisse un peu, TB en hausse un peu, et soudain, ils sont positifs. Prochain test, ils sont redevenus négatifs. Je peux le voir en examinant les résultats individuels, mais je ne sais pas comment intégrer correctement mon intuition dans un modèle.

— Matt Parker

Enfin, bien que j'aie essayé de prendre les résultats du journal, cela ne semble pas être suffisant pour les rapprocher même de la normalité. Ils sont très, très asymétriques, et la troncature à l'extrémité supérieure complique davantage cela en ajoutant une goutte de densité perceptible au plafond. Il est intéressant de noter, cependant, que les distributions de résultat nul et TB à l'échelle de l'échantillon sont assez similaires, la seule différence étant que cette goutte au plafond est beaucoup plus importante pour les résultats TB.

— Matt Parker

Merci d'avoir pris le temps de lire et de répondre à cette bête de question!

— Matt Parker