Pour chaque enregistrement de mes ensembles de données, j'ai les informations suivantes
où sont des entités, δ est 1 si l'événement cible se produit et 0 sinon, et T est l'horodatage de l'événement survenu. En particulier, T pourrait être manquant s'il n'y avait pas d'événement ou s'il était programmé pour mettre fin au suivi.
Je veux calculer un indice de risque pour chaque enregistrement de mon ensemble de données.
Je pensais opter pour un modèle de classification qui utilise les caractéristiques pour prédire la classe δ . Cependant, T est important: si l'événement δ est susceptible de se produire rapidement, le risque devrait être plus élevé.
C'est pourquoi une analyse de survie devrait être adaptée à ce problème. Je n'ai pas besoin de l'estimation complète de mais simplement d'un seul indice qui représente le risque pour un seul enregistrement.
Le temps de survie moyen, qui peut être calculé pour chaque enregistrement, semble être un bon indice de risque - plus le risque est élevé.
Ma question est:
- L'analyse de survie est-elle adaptée à mes besoins?
- Comment puis-je évaluer les performances de mon modèle?