J'ai un grand ensemble de données composé des valeurs de plusieurs centaines de variables financières qui pourraient être utilisées dans une régression multiple pour prédire le comportement d'un fonds indiciel au fil du temps. Je voudrais réduire le nombre de variables à une dizaine tout en conservant autant de pouvoir prédictif que possible. Ajouté: L'ensemble réduit de variables doit être un sous-ensemble de l'ensemble de variables d'origine afin de préserver la signification économique des variables d'origine. Ainsi, par exemple, je ne devrais pas me retrouver avec des combinaisons linéaires ou des agrégats des variables d'origine.
Quelques réflexions (probablement naïves) sur la façon de procéder:
- Effectuez une régression linéaire simple avec chaque variable et choisissez les dix avec les plus grandes valeurs . Bien sûr, rien ne garantit que les dix meilleures variables individuelles combinées constitueraient le meilleur groupe de dix.
- Effectuez une analyse des composants principaux et essayez de trouver les dix variables d'origine avec les associations les plus importantes avec les premiers axes principaux.
Je ne pense pas pouvoir effectuer une régression hiérarchique car les variables ne sont pas vraiment imbriquées. Essayer toutes les combinaisons possibles de dix variables est impossible à calculer car il y a trop de combinaisons.
Existe-t-il une approche standard pour résoudre ce problème de réduction du nombre de variables dans une régression multiple?
Il semble que ce serait un problème suffisamment courant pour qu'il y ait une approche standard.
Une réponse très utile serait celle qui non seulement mentionne une méthode standard, mais donne également un aperçu de comment et pourquoi cela fonctionne. Alternativement, s'il n'y a pas une approche standard mais plutôt plusieurs avec des forces et des faiblesses différentes, une réponse très utile serait celle qui discute de leurs avantages et inconvénients.
Le commentaire de whuber ci-dessous indique que la demande du dernier paragraphe est trop large. Au lieu de cela, j'accepterais comme bonne réponse une liste des principales approches, peut-être avec une très brève description de chacune. Une fois que j'ai les termes, je peux creuser moi-même les détails de chacun.