La technique de suréchantillonnage des minorités synthétiques (SMOTE) est une technique de suréchantillonnage utilisée dans un problème de jeu de données déséquilibré. Jusqu'à présent, j'ai une idée de comment l'appliquer sur des données génériques et structurées. Mais est-il possible de l'appliquer sur un problème de classification de texte? De quelle partie des données avez-vous besoin pour suréchantillonner? Il y a déjà une autre question à ce sujet, mais elle n'a pas de réponse. Où puis-je éventuellement apprendre à commencer avec cela?