Quelle est la sélection de variable / caractéristique que vous préférez pour la classification binaire quand il y a beaucoup plus de variables / caractéristique que d'observations dans l'ensemble d'apprentissage? Le but ici est de discuter de la procédure de sélection des caractéristiques qui réduit le mieux l'erreur de classification.
Nous pouvons fixer des notations pour la cohérence: pour , soit \ {x_1 ^ i, \ dots, x_ {n_i} ^ i \} l'ensemble d'apprentissage des observations du groupe i . Donc n_0 + n_1 = n est la taille de l'ensemble d'apprentissage. Nous définissons p comme le nombre d'entités (c'est-à-dire la dimension de l'espace d'entités). Soit x [i] la i- ème coordonnée de x \ in \ mathbb {R} ^ p .{ x i 1 , … , x i n i } i n 0 + n 1 = n p x [ i ] i x ∈ R p
Veuillez donner des références complètes si vous ne pouvez pas donner les détails.
EDIT (mis à jour en continu): Procédures proposées dans les réponses ci-dessous
- Sélection avancée gourmande Procédure de sélection variable pour la classification binaire
- Élimination en amont Procédure de sélection variable pour la classification binaire
- Balayage Metropolis / MCMC Procédure de sélection des variables pour la classification binaire
- régression logistique pénalisée Procédure de sélection variable pour la classification binaire
Comme il s'agit d'un wiki communautaire, il peut y avoir plus de discussion et de mise à jour
J'ai une remarque: dans un certain sens, vous donnez tous une procédure qui permet de classer les variables mais pas la sélection des variables (vous êtes assez évasif sur la façon de sélectionner le nombre de fonctionnalités, je suppose que vous utilisez tous la validation croisée?) Pouvez-vous améliorer les réponses dans ce sens? (comme il s'agit d'un wiki communautaire, vous n'avez pas besoin d'être le rédacteur de réponses pour ajouter des informations sur la façon de sélectionner le nombre de variables? J'ai ouvert une question dans ce sens ici Validation croisée en très haute dimension (pour sélectionner le nombre de variables utilisées dans la classification dimensionnelle très élevée) )