J'ai un ensemble de données de test très déséquilibré. L'ensemble positif se compose de 100 cas tandis que l'ensemble négatif se compose de 1500 cas. Du côté de la formation, j'ai un plus grand bassin de candidats: l'ensemble de formation positive a 1 200 cas et l'ensemble de formation négative a 12 000 cas. Pour ce genre de scénario, j'ai plusieurs choix:
1) Utilisation de SVM pondéré pour l'ensemble de l'entraînement (P: 1200, N: 12000)
2) En utilisant SVM basé sur l'ensemble d'apprentissage échantillonné (P: 1200, N: 1200), les 1200 cas négatifs sont échantillonnés à partir de 12000 cas.
Existe-t-il des conseils théoriques pour décider quelle approche est la meilleure? Étant donné que l'ensemble de données de test est fortement déséquilibré, dois-je également utiliser l'ensemble d'entraînement déséquilibré?