Création d'un ensemble de données déséquilibré


11

J'aimerais que mon modèle formé soit testé sur un ensemble de données déséquilibré. Existe-t-il des algorithmes disponibles pour générer des données synthétiques à partir d'un ensemble de données étiqueté équilibré (spam / non-spam)?


Vous pouvez toujours déséquilibrer n'importe quel ensemble de données en sous-échantillonnant simplement une classe.
user2974951

Réponses:


8

Essayez SMOTE , c'est un algorithme utilisé pour le suréchantillonnage . Il crée des échantillons synthétiques à partir de la classe que vous souhaitez suréchantillonner.

Vous pouvez l'utiliser pour créer le nombre d'échantillons dont vous avez besoin.


1
SMOTE peut-il également être utilisé pour le sous-échantillonnage?
Stuart Peterson

Eh bien, vous pouvez obtenir un sous-échantillonnage de la classe A en suréchantillonnant la classe notA ...
kjetil b halvorsen

3
@StuartPeterson Non, SMOTE est un algorithme de suréchantillonnage, mais il existe de nombreux autres algorithmes de sous-échantillonnage
Mary93
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.