Ma tâche d'apprentissage automatique consiste à séparer le trafic Internet bénin du trafic malveillant. Dans le scénario réel, la majorité (par exemple 90% ou plus) du trafic Internet est bénigne. Ainsi, j’ai pensé que je devrais également choisir une configuration de données similaire pour la formation de mes modèles. Mais je suis tombé sur un ou deux travaux de recherche (dans mon domaine de travail) qui utilisaient une approche de données "équilibrage de classe" pour former les modèles, impliquant un nombre égal d'instances de trafic bénin et malveillant.
En général, si je construis des modèles d’apprentissage automatique, devrais-je choisir un jeu de données représentatif du problème du monde réel ou un jeu de données équilibré mieux adapté à la construction des modèles (étant donné que certains classificateurs ne se comportent pas bien avec un déséquilibre de classe, ou pour d'autres raisons que je ne connais pas)?
Quelqu'un peut-il nous éclairer davantage sur les avantages et les inconvénients des choix et sur la manière de décider lequel choisir?