Donc, j'ai une matrice d'environ 60 x 1000. Je la considère comme 60 objets avec 1000 fonctionnalités; les 60 objets sont regroupés en 3 classes (a, b, c). 20 objets dans chaque classe, et nous connaissons la véritable classification. J'aimerais faire un apprentissage supervisé sur cet ensemble de 60 exemples de formation, et je m'intéresse à la fois à la précision du classificateur (et aux mesures associées) ainsi qu'à la sélection des fonctionnalités sur les 1000 fonctionnalités.
Tout d'abord, comment est ma nomenclature?
Maintenant, la vraie question:
Je pourrais jeter des forêts aléatoires dessus comme indiqué, ou n'importe quel nombre d'autres classificateurs. Mais il y a une subtilité - je me soucie vraiment de différencier la classe c des classes a et b. Je pourrais regrouper les classes a et b, mais existe-t-il un bon moyen d'utiliser la connaissance a priori que tous les objets non-c forment probablement deux clusters distincts? Je préférerais utiliser des forêts aléatoires ou une variante de celles-ci, car il s'est avéré efficace sur des données similaires aux miennes. Mais je pourrais être convaincu d'essayer d'autres approches.