L'idée de base lorsque vous utilisez PCA comme outil de sélection de caractéristiques est de sélectionner des variables en fonction de la magnitude (du plus grand au plus petit en valeur absolue) de leurs coefficients ( chargements ). Vous vous souviendrez peut-être que la PCA cherche à remplacer les variables (plus ou moins corrélées) par k < p combinaisons linéaires non corrélées (projections) des variables d'origine. Ignorons comment choisir un k optimal pour le problème à résoudre. Ces k composantes principales sont classées par importance en fonction de leur variance expliquée, et chaque variable contribue avec un degré variable à chaque composante. L'utilisation du critère de variance le plus élevé s'apparenterait à l' extraction de caractéristiquespk < pkk , où les composants principaux sont utilisés en tant que nouvelles fonctionnalités au lieu des variables d'origine. Cependant, nous pouvons décider de ne conserver que le premier composant et de sélectionner les variables ayant le coefficient absolu le plus élevé; le nombre j peut être basé sur la proportion du nombre de variables (par exemple, ne conserver que les 10% supérieurs des p variables), ou un seuil fixe (par exemple, en considérant un seuil sur les coefficients normalisés). Cette approche ressemble quelque peu à l' opérateur de Lasso dans la régression pénalisée (ou régression PLS ). Cependant, ni la valeur de j , ni le nombre de composants à conserver ne sont des choix évidents.j<pjpj
Le problème avec l’ACP est que (1) les mesures de toutes les variables originales sont utilisées dans la projection dans l’espace dimensionnel inférieur, (2) seules les relations linéaires sont prises en compte, et (3) les méthodes basées sur la PCA ou la SVD, ainsi que en tant que méthodes de filtrage univariées (test t, corrélation, etc.), ne tiennent pas compte de la nature multivariée potentielle de la structure de données (par exemple, une interaction d'ordre supérieur entre variables).
À propos du point 1, certaines méthodes de criblage plus élaborées ont été proposées, par exemple l’ analyse des caractéristiques principales ou une méthode par étapes, comme celle utilisée pour le « rasage de gène » dans les études d’expression génique. De plus, une analyse PCA fragmentée peut être utilisée pour effectuer une réduction de dimension et une sélection de variables en fonction des chargements variables résultants. À propos du point 2, il est possible d’utiliser PCA du noyau (en utilisant l’ astuce du noyau ) s’il est nécessaire d’incorporer des relations non linéaires dans un espace de dimension inférieure. Les arbres de décision , ou mieux l’ algorithme de forêt aléatoire , sont probablement mieux à même de résoudre le point 3. Ce dernier permet de dériver des mesures d’ importance variable basées sur le gin ou par permutation .
Un dernier point: si vous avez l'intention de sélectionner des caractéristiques avant d'appliquer un modèle de classification ou de régression, assurez-vous de valider le processus dans son ensemble (voir le §7.10.2 des Eléments de l'apprentissage statistique ou Ambroise et McLachlan, 2002 ).
Comme vous semblez être intéressé par la solution R, je vous recommanderais de jeter un coup d'œil au paquet caret , qui comprend de nombreuses fonctions pratiques pour le prétraitement des données et la sélection de variables dans un contexte de classification ou de régression.