J'utilise un classificateur bayésien naïf pour classer entre deux groupes de données. Un groupe de données est beaucoup plus grand que l'autre (plus de 4 fois). J'utilise la probabilité antérieure de chaque groupe dans le classificateur.
Le problème est que le résultat que j'obtiens a un taux de vrai positif de 0% et un taux de faux positif de 0%. J'ai obtenu les mêmes résultats lorsque j'ai réglé l'avant à 0,5 et 0,5.
Comment puis-je fixer mon seuil à quelque chose de mieux pour obtenir des résultats plus équilibrés?
J'ai eu un problème similaire lors de l'utilisation du classificateur de régression logistique. Je l'ai résolu en soustrayant le terme précédent du biais.
Lorsque j'utilise Fisher Linear Discriminant sur ces données, j'obtiens de bons résultats avec le seuil défini au milieu.
Je suppose qu'il existe une solution commune à ce problème, je ne l'ai tout simplement pas trouvée.
MISE À JOUR: Je viens de remarquer que moi, le classificateur est trop adapté. La performance sur l'ensemble d'entraînement est parfaite (100% correcte).
Si j'utilise des groupes égaux, le classificateur commence également à se classer dans le "petit" groupe, mais les performances sont plutôt mauvaises (pires que FLD ou LR).
UPDATE2: Je pense que le problème était que j'utilisais une matrice de covariance complète. Courir avec une matrice de covariance diagonale m'a donné des résultats plus «équilibrés».