C'est une question en général, non spécifique à une méthode ou à un ensemble de données. Comment traiter un problème de déséquilibre de classe dans l'apprentissage automatique supervisé, où le nombre de 0 est d'environ 90% et le nombre de 1 d'environ 10% dans votre jeu de données. Comment former de manière optimale le classificateur.
L'une des méthodes que je suis consiste à échantillonner pour équilibrer l'ensemble de données, puis à former le classifieur et à répéter l'opération pour plusieurs échantillons.
Je pense que cela est aléatoire. Existe-t-il un cadre pour aborder ce type de problèmes?