J'ai un ensemble de données binaires très biaisé - j'ai 1000 fois plus d'exemples de la classe négative que de la classe positive. J'aimerais former un ensemble d'arbres (comme des arbres aléatoires supplémentaires ou une forêt aléatoire) sur ces données, mais il est difficile de créer des ensembles de données d'apprentissage qui contiennent suffisamment d'exemples de la classe positive.
Quelles seraient les implications d'une approche d'échantillonnage stratifié pour normaliser le nombre d'exemples positifs et négatifs? En d'autres termes, est-ce une mauvaise idée, par exemple, de gonfler artificiellement (en rééchantillonnant) le nombre d'exemples de classe positifs dans l'ensemble de formation?