Je suis confronté à une situation où les nombres d'exemples positifs et négatifs dans un ensemble de données sont déséquilibrés.
Ma question est la suivante: y a-t-il des règles empiriques qui nous disent quand nous devons sous-échantillonner la grande catégorie afin de forcer une sorte d'équilibrage dans l'ensemble de données.
Exemples:
- Si le nombre d'exemples positifs est de 1 000 et le nombre d'exemples négatifs est de 10 000, dois-je choisir de former mon classificateur sur l'ensemble de données complet ou dois-je sous-échantillonner les exemples négatifs?
- La même question pour 1000 exemples positifs et 100 000 négatifs.
- La même question pour 10 000 positifs et 1 000 négatifs.
- etc...