J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées.
Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le faire. Ma question est la suivante:
Dois-je m'assurer que mon ensemble de validation est AUSSI déséquilibré (comme un clin d'œil à la véritable distribution de l'ensemble d'entraînement), ou dois-je m'assurer que mon ensemble de validation est équilibré? Ainsi, par exemple, mon ensemble de validation doit-il être composé de:
- Exemple positif à 10% + négatif à 10%, donnant 1000+ et 5000 exemples. (Cet ensemble de validation reflète le déséquilibre des données d'origine).
- Ou l'ensemble de validation doit-il être constitué de, disons, 10% positifs, donnant 1000+, et (10/5 = 2%) négatifs, donnant également 1000 exemples?
(Même question pour l'ensemble de test).
Il semble y avoir beaucoup de méthodes sur la façon de s'entraîner avec des données déséquilibrées, mais je ne vois pas où trouver les meilleures pratiques pour savoir si mon ensemble de validation doit également refléter le déséquilibre d'origine ou non. Enfin, je ne fais PAS de validation croisée, j'utiliserai un seul ensemble de validation et un réseau de neurones.
Merci!