J'ai des caractéristiques clairsemées qui sont prédictives, j'ai aussi des caractéristiques denses qui sont également prédictives. J'ai besoin de combiner ces fonctionnalités pour améliorer les performances globales du classificateur.
Maintenant, le problème est que lorsque j'essaie de les combiner, les entités denses ont tendance à dominer davantage les entités clairsemées, ce qui ne donne qu'une amélioration de 1% de l'ASC par rapport au modèle avec uniquement des entités denses.
Quelqu'un a-t-il rencontré des problèmes similaires? J'apprécie vraiment les entrées, un peu coincées. J'ai déjà essayé beaucoup de classificateurs différents, une combinaison de classificateurs, des transformations de fonctionnalités et un traitement avec différents algorithmes.
Merci d'avance pour l'aide.
Modifier :
J'ai déjà essayé les suggestions qui sont données dans les commentaires. Ce que j'ai observé, c'est que pour près de 45% des données, les entités clairsemées fonctionnent très bien, j'obtiens l'ASC d'environ 0,9 avec uniquement des entités clairsemées, mais pour les autres, les entités denses fonctionnent bien avec l'ASC d'environ 0,75. J'ai en quelque sorte essayé de séparer ces ensembles de données, mais j'obtiens l'AUC de 0,6, donc je ne peux pas simplement former un modèle et décider quelles fonctionnalités utiliser.
En ce qui concerne l'extrait de code, j'ai essayé tellement de choses que je ne sais pas exactement quoi partager :(