Questions de base sur l'analyse de survie en temps discret

J'essaie de réaliser une analyse de survie en temps discret à l'aide d'un modèle de régression logistique, et je ne suis pas sûr de bien comprendre le processus. J'apprécierais grandement l'aide pour quelques questions de base.

Voici la configuration:

J'examine l'appartenance à un groupe dans un délai de cinq ans. Chaque membre a un dossier mensuel d'adhésion pour chaque mois où il est dans le groupe. Je considère tous les membres dont l'adhésion a commencé au cours de la fenêtre de cinq ans (pour éviter les problèmes de «censure de gauche» avec les membres qui se sont joints plus tôt). Chaque enregistrement sera indexé par heure, la première étant le mois auquel le membre s'est joint. Ainsi, un membre qui reste deux ans et demi aura trente dossiers mensuels, numérotés de un à trente. Chaque enregistrement recevra également une variable binaire, qui aura une valeur de un pour le dernier mois d'adhésion et de zéro sinon; une valeur de un pour la variable binaire marque l'événement que le membre a quitté le groupe. Pour chaque membre dont l'adhésion se poursuit au-delà de la fenêtre d'analyse de cinq ans,

Ainsi, le modèle de régression logistique est construit pour prédire les valeurs de la variable d'événement binaire. Jusqu'ici tout va bien. L'une des façons typiques d'évaluer un modèle prédictif binaire consiste à mesurer la portance sur un échantillon à éviter. Pour le modèle de régression logistique que j'ai construit pour prédire l'événement de fin d'adhésion, j'ai calculé l'élévation sur un ensemble de données d'exclusion avec un rapport de cinq à un des non-événements aux événements. J'ai classé les valeurs prédites en déciles. Le décile avec les valeurs prédites les plus élevées contient soixante-dix pour cent, soit une élévation de plus de quatre. Les deux premiers déciles combinés contiennent soixante-cinq pour cent de tous les décrocheurs. Dans certains contextes, cela serait considéré comme un modèle prédictif assez décent, mais je me demande s'il est assez bon pour effectuer une analyse de survie.

Soit la fonction de risque pour l'individu au cours du mois , et soit la probabilité que l'individu survive au cours du mois . $h[j,k]$ $j$ $k$ $S[j,k]$ $j$ $k$

Voici mes questions fondamentales:

La fonction de risque discrète, , est-elle la probabilité conditionnelle de non-survie (quitter le groupe) chaque mois? $h[j,k]$
Les valeurs prévues à partir des estimations du modèle de régression logistique de la fonction de risque? (c.-à-d. égal à la valeur prédite par le modèle pour l'individu au cours du mois , ou faut-il faire plus pour obtenir des estimations de la fonction de risque?) $h[j,k]$ $j$ $k$
La probabilité de survie jusqu'au mois q pour l'individu égale au produit de un moins la fonction de risque du premier mois à , c'est-à-dire, ? $j$ $q$ $S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])$
Est la valeur moyenne de pour tous les individus pour chaque fois une estimation raisonnable de la probabilité de survie moyenne de la population globale? $S[j,k]$ $j$ $k$
Un graphique de la population globale signifie-t-il que la probabilité de survie par mois doit ressembler au graphique mensuel de Kaplan-Meier?

Si la réponse à l'une de ces questions est non, j'ai un grave malentendu et je pourrais vraiment utiliser une aide / explication. En outre, existe-t-il une règle empirique pour déterminer la qualité du modèle prédictif binaire afin de produire un profil de survie précis?

— Talbot Katz
source

Peut-être que cela peut vous aider avec certaines de vos questions

— jujae

Supposons que $K$ est la plus grande valeur de $k$ (c'est-à-dire le plus grand mois / période observé dans vos données).

Voici la fonction de hasard avec une paramétrisation totalement discrète du temps, et avec un vecteur de paramètres $\mathbf{B}$ un vecteur de variables de conditionnement $\mathbf{X}$ : $h_{j,k} = \frac{e^{\alpha_{k} + \mathbf{BX}}}{1 + e^{\alpha_{k} + \mathbf{BX}}}$ . La fonction de hasard peut également être construite autour de paramétrisations alternatives du temps (par exemple inclure $k$ ou ses fonctions comme variable dans le modèle), ou autour d'un hybride des deux.

La fonction de danger de base logit décrit la probabilité d'occurrence d'un événement au temps $k$ , conditionnelle à la survie au temps $k$ . L'ajout de prédicteurs ( $\mathbf{X}$ ) au modèle limite encore cette conditionnalité.
Non, les estimations de régression logistique $\hat{\alpha}_{1}$ , $\dots$ , , ) sont pas les fonctions de risque eux - mêmes. Les modèles de régression logistique: logit , et vous devez effectuer la transformation anti-logit en (1) ci-dessus pour obtenir les estimations du danger. $\hat{\alpha}_{K}$ $\mathbf{\hat{B}}$ $(h_{j,k}) = \alpha_{k} + \mathbf{BX}$
Oui. Bien que j'annoter il . La fonction de survie est la probabilité de ne pas connaître l'événement par le temps , et bien sûr peut également être conditionnée par . $\hat{S}_{j,q} = \prod_{i=1}^{q}{(1-h_{j,i})}$ $k$ $\mathbf{X}$
$\beta$ $\hat{h}_{j,k}$ $\hat{S}_{j,k}$ $\hat{S}_{j,k}$
$1 - S_{j,k}$

— Alexis
source

Je pense qu'à la question 2, OP pose des questions sur la valeur prédite à partir du modèle logistique, pas sur les estimations des coefficients de régression. Cela pourrait être pertinent

— jujae

\hat{h} (t)

$\hat{h}(t)$

y_{p r e d} = \exp (β^{T} x) / (1 + \exp (β^{T} x))

$y_\mathrm{pred}= \exp(\beta^Tx)/(1+\exp(\beta^Tx))$

De retour à la question 2 d'origine, le PO a demandé: "Les valeurs prévues à partir des modèles de régression logistique sont-elles des estimations de la fonction de risque?" Je dirais oui (si ma compréhension de la valeur prédite est correcte). Et vous dites non et faites valoir que les coefficients estimés ne sont pas les mêmes que l'estimation du danger. Je suis d'accord avec votre déclaration, ils sont corrects mais ce n'est pas ce que OP a demandé de ma compréhension.

— jujae

k

$k$

{\hat{S}}_{j} (k)

$\hat{S}_j(k)$

S (k)

$S(k)$