Sélection du nombre de composants principaux clairsemés à inclure dans la régression

Quelqu'un a-t-il de l'expérience avec les approches de sélection du nombre de composants principaux clairsemés à inclure dans un modèle de régression?

pca sparse regression-strategies

— Frank Harrell
source

Je n'ai pas d'expérience avec cela spécifiquement, mais je suppose que la validation croisée serait une bonne approche (comme toujours).

— amoeba

Bien que je n'aie pas de vue directe sur votre question, j'ai parcouru certains documents de recherche qui pourraient vous intéresser. C'est, bien sûr, si je comprends bien que vous parlez d' ACP clairsemée , de régression des principaux composants et de sujets connexes. Dans ce cas, voici les papiers:

— Aleksandr Blekh
source

Je ne connaissais pas toutes ces références. Ils sont très bons - merci.

— Frank Harrell

@FrankHarrell: Vous êtes les bienvenus! Heureux d'avoir pu aider.

— Aleksandr Blekh

Les résultats de la validation croisée ont également été utilisés pour déterminer le nombre optimal de dimensions pour l'espace LSI. Trop peu de dimensions n'ont pas profité du pouvoir prédictif des données; alors que trop de dimensions ont entraîné un sur-ajustement. La figure 4 montre la distribution des erreurs moyennes pour les modèles avec différents nombres de dimensions LSI. Les modèles avec des espaces LSI à quatre dimensions ont produit à la fois le nombre moyen d'erreurs le plus faible et le nombre d'erreurs médian le moins élevé, de sorte que le modèle final a été construit en utilisant un espace LSI à quatre dimensions.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Je peux poster une copie si vous n'êtes pas membre d'eeee.

Ceci provient d'un article que j'ai écrit au premier cycle. J'ai eu un problème où je devais décider du nombre de dimensions (l'indexation sémantique latente est similaire à l'ACP) à utiliser dans mon modèle de régression logistique. Ce que j'ai fait, c'est de choisir une métrique (c.-à-d. Le taux d'erreur lors de l'utilisation d'une probabilité d'indicateur de 0,5) et j'ai examiné la distribution de ce taux d'erreur pour différents modèles formés sur différents nombres de dimensions. J'ai ensuite choisi le modèle avec le taux d'erreur le plus bas. Vous pouvez utiliser d'autres mesures comme l'aire sous la courbe ROC.

Vous pouvez également utiliser quelque chose comme une régression pas à pas pour choisir le nombre de dimensions pour vous. Quel type de régression effectuez-vous spécifiquement?

Qu'entendez-vous par btw clairsemé?

— Andrew Cassidy
source

Le PC épars est par exemple le PCA L1 (lasso) pénalisé. Dans le PCA ordinaire, nous pouvons généralement saisir les termes par ordre de variation expliqué. Avec une PCA clairsemée, les choses sont un peu plus irrégulières, donc la sélection est peut-être plus difficile.

— Frank Harrell

La question portait spécifiquement sur les composants principaux clairsemés , et cette réponse (aussi bonne soit-elle) ne la traite pas du tout , donc -1.

— amoeba

La régression pas à pas qui choisit les composants en fonction des associations avec entraînera un sur-ajustement à moins que des fonctions de pénalité spéciales ne soient incorporées.

Y

$Y$

— Frank Harrell

@FrankHarrell qui peut potentiellement se produire mais est moins susceptible de se produire si vous utilisez AIC au lieu de R-carré

— Andrew Cassidy

@amoeba Je suis confus ... non, je n'ai pas abordé la partie "clairsemée" des principaux commentaires, mais vous avez fait exactement la même suggestion d'utiliser la validation croisée dans un commentaire?

— Andrew Cassidy