Je voudrais effectuer une combinaison de suréchantillonnage et de sous-échantillonnage afin d'équilibrer mon ensemble de données avec environ 4000 clients divisés en deux groupes, où l'un des groupes a une proportion d'environ 15%.
J'ai examiné SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) et ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), mais les deux créent de nouveaux échantillons synthétiques en utilisant les observations existantes et par exemple kNN.
Cependant, comme bon nombre des attributs associés aux clients sont catégoriques, je ne pense pas que ce soit la bonne façon de procéder. Par exemple, beaucoup de mes variables telles que Region_A et Region_B s'excluent mutuellement, mais en utilisant kNN, les nouvelles observations peuvent être placées à la fois dans Region_A et Region_B. Êtes-vous d'accord que c'est un problème?
Dans ce cas - comment effectuer un suréchantillonnage dans R en dupliquant simplement les observations existantes? Ou est-ce la mauvaise façon de procéder?