Nous avions déjà plusieurs questions sur les données déséquilibrées lors de l'utilisation de la régression logistique , de la SVM , des arbres de décision , de la mise en sac et de plusieurs autres questions similaires, ce qui en fait un sujet très populaire! Malheureusement, chacune des questions semble être spécifique à un algorithme et je n'ai trouvé aucune directive générale pour traiter les données asymétriques.
Citant l' une des réponses de Marc Claesen , traitant de données non équilibrées
(...) dépend fortement de la méthode d'apprentissage. La plupart des approches générales ont un (ou plusieurs) moyen de gérer cela.
Mais quand devons-nous nous préoccuper des données déséquilibrées? Quels algorithmes sont le plus souvent affectés et lesquels sont capables de le gérer? Quels algorithmes auraient besoin de nous pour équilibrer les données? Je suis conscient que discuter de chacun des algorithmes serait impossible sur un site de questions-réponses comme celui-ci. Je cherche plutôt des directives générales sur les cas où cela pourrait poser problème.