J'aimerais que mon modèle formé soit testé sur un ensemble de données déséquilibré. Existe-t-il des algorithmes disponibles pour générer des données synthétiques à partir d'un ensemble de données étiqueté équilibré (spam / non-spam)?
J'aimerais que mon modèle formé soit testé sur un ensemble de données déséquilibré. Existe-t-il des algorithmes disponibles pour générer des données synthétiques à partir d'un ensemble de données étiqueté équilibré (spam / non-spam)?
Réponses:
Essayez SMOTE , c'est un algorithme utilisé pour le suréchantillonnage . Il crée des échantillons synthétiques à partir de la classe que vous souhaitez suréchantillonner.
Vous pouvez l'utiliser pour créer le nombre d'échantillons dont vous avez besoin.