J'ai un ensemble de données dans lequel le taux d'événements est très faible (40 000 sur ). J'applique une régression logistique à ce sujet. J'ai eu une discussion avec quelqu'un où il s'est avéré que la régression logistique ne donnerait pas une bonne matrice de confusion sur des données à faible taux d'événements. Mais en raison du problème commercial et de la façon dont il a été défini, je ne peux pas augmenter le nombre d'événements de 40 000 à un nombre plus important, bien que je convienne que je peux supprimer une population non événementielle.
Veuillez me faire part de votre opinion à ce sujet, en particulier:
- La précision de la régression logistique dépend-elle du taux d'événements ou existe-t-il un taux d'événements minimum recommandé?
- Existe-t-il une technique spéciale pour les données à faible taux d'événements?
- La suppression de ma population non événementielle serait-elle bonne pour la précision de mon modèle?
Je suis nouveau dans la modélisation statistique, pardonnez donc mon ignorance et veuillez aborder tous les problèmes associés auxquels je pourrais penser.
Merci,