Je sais que les modèles statistiques traditionnels comme la régression des risques proportionnels de Cox et certains modèles de Kaplan-Meier peuvent être utilisés pour prédire jours jusqu'à la prochaine occurrence d'une panne par exemple d'événements , etc. -à- dire l' analyse de survie
Des questions
- Comment la version de régression de modèles d'apprentissage automatique tels que GBM, les réseaux de neurones, etc. peut-elle être utilisée pour prédire les jours avant l'occurrence d'un événement?
- Je crois que l'utilisation de jours avant l'occurrence comme variable cible et la simplification de l'exécution d'un modèle de régression ne fonctionneront pas? Pourquoi cela ne fonctionnera-t-il pas et comment le réparer?
- Peut-on convertir le problème d'analyse de survie en une classification et ensuite obtenir des probabilités de survie? Si alors comment créer la variable cible binaire?
- Quels sont les avantages et les inconvénients de l'approche d'apprentissage automatique par rapport à la régression des risques proportionnels de Cox et aux modèles Kaplan-Meier, etc.?
Imaginez des exemples de données d'entrée au format ci-dessous
Remarque:
- Le capteur envoie un ping aux données à des intervalles de 10 minutes, mais parfois des données peuvent être manquantes en raison d'un problème de réseau, etc., comme représenté par la ligne avec NA.
- var1, var2, var3 sont les prédicteurs, variables explicatives.
- failure_flag indique si la machine a échoué ou non.
- Nous avons des données des 6 derniers mois à chaque intervalle de 10 minutes pour chacun des ID de machine
ÉDITER:
La prévision de sortie attendue doit être dans le format ci-dessous
Remarque: Je veux prédire la probabilité de défaillance de chacune des machines pour les 30 prochains jours au niveau quotidien.
failure_flag
.