J'ai souvent analysé un ensemble de données sur lequel je ne pouvais pas vraiment faire de classification. Pour voir si je peux obtenir un classificateur, j'ai généralement utilisé les étapes suivantes:
- Générez des tracés d'étiquette par rapport aux valeurs numériques.
- Réduisez la dimensionnalité à 2 ou 3 pour voir si les classes sont séparables, essayez également LDA parfois.
- Essayez avec force d'adapter les SVM et les forêts aléatoires et examinez l'importance des fonctionnalités pour voir si les fonctionnalités ont un sens ou non.
- Essayez de modifier l'équilibre des classes et des techniques comme le sous-échantillonnage et le suréchantillonnage pour vérifier si le déséquilibre des classes pourrait être un problème.
Il existe de nombreuses autres approches auxquelles je peux penser, mais je n'ai pas essayé. Parfois, je sais que ces fonctionnalités ne sont pas bonnes et ne sont pas du tout liées au label que nous essayons de prévoir. J'utilise ensuite cette intuition commerciale pour terminer l'exercice, concluant que nous avons besoin de meilleures fonctionnalités ou d'étiquettes totalement différentes.
Ma question est de savoir comment un Data Scientist signale que la classification ne peut pas être effectuée avec ces fonctionnalités. Existe-t-il un moyen statistique de signaler cela ou d'ajuster d'abord les données dans différents algorithmes et de regarder la métrique de validation est la meilleure option?