J'entraîne une régression logistique pour prédire quels coureurs sont les plus susceptibles de terminer une course d'endurance exténuante.
Très peu de coureurs terminent cette course, j'ai donc un grave déséquilibre de classe et un petit échantillon de succès (peut-être quelques dizaines). Je sens que je pourrais obtenir un bon "signal" des dizaines de coureurs qui ont presque réussi. (Mes données de formation ne sont pas seulement terminées, mais aussi dans quelle mesure celles qui n'ont pas fini l'ont fait.) Je me demande donc si c'est une idée terrible ou non d'inclure un "crédit partiel". Je suis venu avec quelques fonctions pour le crédit partiel, la rampe et la courbe logistique, qui pourraient recevoir divers paramètres.
La seule différence avec la régression serait que j'utiliserais des données d'entraînement pour prédire le résultat modifié et continu au lieu d'un résultat binaire. En comparant leurs prédictions sur un ensemble de tests (en utilisant la réponse binaire), j'ai eu des résultats assez peu concluants - le crédit partiel logistique semblait améliorer légèrement le R au carré, l'ASC, le P / R, mais ce n'était qu'une tentative sur un cas d'utilisation en utilisant un petit échantillon.
Je ne me soucie pas que les prévisions soient uniformément biaisées vers l'achèvement - ce qui m'importe, c'est de classer correctement les candidats sur leur probabilité de terminer, ou peut-être même d'estimer leur probabilité relative de terminer.
Je comprends que la régression logistique suppose une relation linéaire entre les prédicteurs et le log du rapport de cotes, et évidemment ce rapport n'a pas d'interprétation réelle si je commence à jouer avec les résultats. Je suis sûr que ce n'est pas intelligent d'un point de vue théorique, mais cela pourrait aider à obtenir un signal supplémentaire et à éviter le sur-ajustement. (J'ai presque autant de prédicteurs que de succès, il peut donc être utile d'utiliser les relations avec achèvement partiel comme vérification des relations avec achèvement complet).
Cette approche est-elle jamais utilisée dans la pratique responsable?
Quoi qu'il en soit, existe-t-il d'autres types de modèles (peut-être quelque chose qui modélise explicitement le taux de risque, appliqué sur la distance plutôt que sur le temps) qui pourraient être mieux adaptés à ce type d'analyse?