J'essaie de résumer ce que j'ai compris jusqu'à présent dans l'analyse multivariée pénalisée avec des ensembles de données de grande dimension, et j'ai toujours du mal à obtenir une définition correcte du seuillage progressif par rapport à la pénalisation Lasso (ou ).
Plus précisément, j'ai utilisé une régression PLS clairsemée pour analyser la structure de données à 2 blocs, y compris les données génomiques ( polymorphismes mononucléotidiques , où nous considérons la fréquence de l'allèle mineur dans la plage {0,1,2}, considérée comme une variable numérique) et phénotypes continus (scores quantifiant les traits de personnalité ou l'asymétrie cérébrale, également traités comme des variables continues). L'idée était d'isoler les prédicteurs les plus influents (ici, les variations génétiques sur la séquence d'ADN) pour expliquer les variations phénotypiques interindividuelles.
J'ai d'abord utilisé le package mixOmics R (anciennement integrOmics
) qui propose une régression PLS pénalisée et un CCA régularisé . En examinant le code R, nous avons constaté que la "rareté" dans les prédicteurs est simplement induite en sélectionnant les variables les plus élevées avec les charges les plus élevées (en valeur absolue) sur la ème composante, (l'algorithme est itératif et calcule les chargements de variables sur composants, dégonflant le bloc des prédicteurs à chaque itération, voir Sparse PLS: Sélection de variable lors de l'intégration des données Omics pour un aperçu). Au contraire, le package spls co-écrit par S. Keleş (voiri i = 1 , … , k k L 1La régression des moindres carrés partiels clairsemés pour la réduction de dimension simultanée et la sélection des variables , pour une description plus formelle de l'approche entreprise par ces auteurs) met en œuvre la pénalisation pour la pénalisation variable.
Il n'est pas évident pour moi qu'il y ait une "bijection" stricte, pour ainsi dire, entre la sélection itérative de fonctionnalités basée sur le seuillage progressif et la régularisation . Ma question est donc la suivante: existe-t-il un lien mathématique entre les deux?
Références
- Chun, H. et Kele ̧s, S. (2010), Moindres carrés partiels clairsemés pour une réduction simultanée des dimensions et une sélection variable . Journal de la Royal Statistical Society: série B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., et Besse, P. (2008), A Sparse PLS for Variable Selection when Integrating Omics Data . Applications statistiques en génétique et biologie moléculaire , 7 , article 35.