Lorsque vous classifiez à l'aide de logit, c'est ce qui se produit.
Le logit prédit la probabilité de défaut (PD) d'un prêt, qui est un nombre compris entre 0 et 1. Ensuite, vous définissez un seuil D, de sorte que vous marquez un prêt par défaut si PD> D, et le marquez comme non par défaut si PD
Naturellement, dans une population de prêt typique PD << 1. Donc, dans votre cas, 7% est une probabilité plutôt élevée de données sur un an (les PD sont normalement déclarés sur une base annuelle). S'il s'agit de données pluriannuelles, nous parlons alors de la PD dite cumulative, dans ce cas cumPD = 7% n'est pas un chiffre élevé pour 10 ans de données, par exemple. Par conséquent, selon aucune norme, je ne dirais pas que votre ensemble de données est problématique. Je le décrirais au moins typique pour les données de défaut de prêt, sinon génial (dans le sens où vous avez un nombre relativement élevé de défauts).
Supposons maintenant que votre modèle prédit les trois niveaux de DP suivants:
- 0,1 (563 426)
- 0,5 (20 000)
- 0,9 (31 932)
Supposons également que les valeurs par défaut réelles pour ces groupes soient:
Vous pouvez maintenant définir D sur différentes valeurs et voir comment la matrice change. Utilisons d'abord D = 0,4:
- Valeur par défaut réelle, prédire non par défaut: 0
- Valeur par défaut réelle, valeur par défaut prévue: 41 932
- Non réel par défaut réel, non prévu par défaut: 563 426
- Réel non par défaut, prédire par défaut: 10000
Si vous définissez D = 0,6:
- Valeur par défaut réelle, prédire la valeur non par défaut: 31 932
- Valeur par défaut réelle, valeur par défaut prévue: 10 000
- Non réel par défaut réel, non prévu par défaut: 573 426
- Réel non par défaut, prédire par défaut: 0
Si vous définissez D = 0,99:
- Valeur par défaut réelle, prédire non par défaut: 41 932
- Valeur par défaut réelle, valeur par défaut prévue: 0
- Non réel par défaut réel, non prévu par défaut: 573 426
- Réel non par défaut, prédire par défaut: 0
Le dernier cas est ce que vous voyez dans les résultats de votre modèle. Dans ce cas, je souligne le seuil D pour un classificateur. Un simple changement de D peut améliorer certaines caractéristiques de votre prévision. Notez que dans les trois cas, la PD prédite est restée la même, seul le seuil D a changé.
Il est également possible que votre régression logit elle-même soit merdique, bien sûr. Donc, dans ce cas, vous avez au moins deux variables: la spécification logit et le seuil. Les deux ont un impact sur votre puissance de prévision.