Comment prédisez-vous une catégorie de réponse à partir d'un modèle de régression logistique ordinale?

Je veux prédire un problème de santé. J'ai 3 catégories de résultats qui sont classées: «normale», «légère» et «grave». Je souhaite prédire cela à partir de deux variables prédictives, un résultat de test (une covariable d'intervalle continue) et des antécédents familiaux avec ce problème (oui ou non). Dans mon échantillon, les probabilités sont de 55% (normales), 35% (légères) et 10% (graves). En ce sens, je pouvais toujours prédire «normal» et avoir raison 55% du temps, bien que cela ne me donne aucune information sur les patients individuels. Je correspond au modèle suivant:

\begin{aligned} the cut point for \hat{(y \geq 1)} & = - 2.18 \\ the cut point for \hat{(y \geq 2)} & = - 4.27 \\ {\hat{β}}_{t e s t} & = 0.60 \\ {\hat{β}}_{f a m i l y h i s t o r y} & = 1.05 \end{aligned}

$\begin{align} \text{the cut point for }\widehat{(y \ge 1)} &= -2.18 \\ \text{the cut point for }\widehat{(y \ge 2)} &= -4.27 \\ \hat\beta_{\rm test} &= 0.60 \\ \hat\beta_{\rm family\ history} &= 1.05 \end{align}$

Supposons qu'il n'y ait pas d'interaction et que tout va bien avec le modèle. La concordance, c, est de 60,5%, ce qui, à mon avis, est la précision prédictive maximale offerte par le modèle.

Je tombe sur deux nouveaux patients avec les données suivantes: 1. test = 3,26, famille = 0; 2. test = 2,85, famille = 1. Je veux prédire leur pronostic. En utilisant la formule: (et en prenant ensuite les différences entre les probabilités cumulatives), je peux calculer la distribution de probabilité sur les catégories de réponse conditionnelle au modèle. Code R (nb, en raison de problèmes d'arrondi, la sortie ne correspond pas parfaitement):

\frac{\exp (- X β - c u t P o i n t)}{(1 + \exp (- X β - c u t P o i n t))}

$\frac{\exp(-X\beta - {\rm cutPoint})}{(1+\exp(-X\beta - {\rm cutPoint}))}$

cut1 <- -2.18
cut2 <- -4.27
beta <- c(0.6, 1.05)
X    <- rbind(c(3.26, 0), c(2.85, 1))

pred_cat1      <- exp(-1*(X%*%beta)-cut1)/(1+exp(-1*(X%*%beta)-cut1))
pred_cat2.temp <- exp(-1*(X%*%beta)-cut2)/(1+exp(-1*(X%*%beta)-cut2))
pred_cat3      <- 1-pred_cat2.temp
pred_cat2      <- pred_cat2.temp-pred_cat1

predicted_distribution <- cbind(pred_cat1, pred_cat2, pred_cat3)

À savoir: 1,0 = 55,1%, 1 = 35,8%, 2 = 9,1%; et 2. 0 = 35,6%, 1 = 46,2%, 2 = 18,2%. Ma question est la suivante: comment passer de la distribution de probabilité à une catégorie de réponse prédite?

J'ai essayé plusieurs possibilités en utilisant les données de l'échantillon, où le résultat est connu. Si je choisis juste max (probabilités), la précision est de 57%, une légère amélioration par rapport au zéro, mais en dessous de la concordance. De plus, dans l'échantillon, cette approche ne choisit jamais «sévère», ce que je veux vraiment savoir. J'ai essayé une approche bayésienne en convertissant les probabilités nulles et modélisées en cotes puis en choisissant le max (odds ratio). Cela est parfois «sévère», mais donne une précision moins bonne de 49,5%. J'ai également essayé une somme des catégories pondérées par les probabilités et les arrondis. Ceci, encore une fois, ne choisit jamais «sévère» et a une faible précision de 51,5%.

Quelle est l'équation qui prend les informations ci-dessus et donne une précision optimale (60,5%)?

logistic ordered-logit

— gung - Réintégrer Monica
source

Réponses:

$Y$ rmslrmpredict.lrm

— Frank Harrell
source

Merci de votre aide. Je soupçonnais que la faible fréquence des graves faisait partie du problème. Je pense que mon Y brut, 0 1 2, est un intervalle insuffisamment égal. Je suppose que mon objectif est erroné. Malheureusement, je pense que je veux savoir dans quelle catégorie un nouveau patient tombera / je ne comprends pas vraiment quel devrait être mon objectif . Est-il possible de fournir un peu plus d'informations? (En fait, je soupçonne que CV n'est pas le forum pour une leçon complète; sinon, savez-vous où je pourrais en savoir plus sur ce problème? J'ai lu les sections de la Logistique d'Agresti Intro & Hosmer & Lemeshow, mais en vain.)

— gung - Rétablir Monica

L'objectif est déterminé par la décision nécessaire ou par le sujet. Si vous énoncez le but ultime, je pourrais peut-être commenter.

— Frank Harrell

Désolé pour mon manque de clarté, cela semble également avoir été un problème ci-dessus. À l'heure actuelle, je veux pouvoir prédire l'issue de nouveaux cas. À long terme, je veux mieux comprendre le registre des ord ord, par exemple, comment obtenir des résidus si vous n'avez pas de catégories prédites? Je suppose qu'une précision légèrement meilleure est possible, mais je ne sais pas comment l'obtenir. Je suis sûr que vous n'avez pas le temps de tout expliquer, mais ni Agresti, ni H&L ne disent quoi que ce soit sur les prédictions ou les résidus, etc. et je n'ai rien trouvé avec google. Ainsi, j'ai demandé sur CV. J'apprécie votre aide continue.

— gung - Rétablir Monica

Y \geq j

$Y\geq j$

j

$j$

-1

La concordance est définie en vérifiant le score moyen, pas le score maximum.

Ainsi, pour vos exemples, les scores moyens pour 1 sont 0 * 55,1% + 1 * 35,8% + 2 * 9,1% = 0,54, et 2 est (par des calculs similaires) 0,826.

C'est cette valeur que vous devez comparer pour obtenir la concordance ou toute autre statistique d'association.

Réf - http://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_logistic_sect042.htm

— KalEl
source

Y

$Y$

X β

$X\beta$

D_{x y}

$D_{xy}$

SAS PROC LOGIST

Y

$Y$