Je suis devenu un peu nihiliste en ce qui concerne les classements d' importance variable (dans le contexte de modèles multivariés de toutes sortes).
Souvent, au cours de mon travail, on me demande soit d'aider une autre équipe à produire un classement d'importance variable, soit de produire un classement d'importance variable à partir de mon propre travail. En réponse à ces demandes, je pose les questions suivantes
Pour quoi aimeriez-vous ce classement d'importance variable? Qu'espérez-vous en tirer? Quel genre de décisions aimeriez-vous prendre en l'utilisant?
Les réponses que je reçois tombent presque toujours dans l'une des deux catégories
- Je voudrais connaître l'importance des différentes variables de mon modèle pour prédire la réponse.
- Je voudrais l'utiliser pour la sélection des fonctionnalités, en supprimant les variables de faible importance.
La première réponse est tautologique (je souhaiterais un classement d'importance variable car je souhaiterais un classement d'importance variable). Je dois supposer que ces classements répondent à un besoin psychologique lors de la consommation de la sortie d'un modèle multivarié. J'ai du mal à comprendre cela, car le classement individuel des variables «importance» semble implicitement rejeter la nature multidimensionnelle du modèle en question.
La deuxième réponse se réduit essentiellement à une version informelle de la sélection à l'envers , dont les péchés statistiques sont bien documentés dans d'autres parties de CrossValidated.
Je lutte également avec la nature mal définie des classements d'importance. Il semble y avoir peu d'accord sur le concept sous-jacent que le classement devrait mesurer, ce qui leur donne une saveur très ponctuelle. Il existe de nombreuses façons d'attribuer un score ou un classement d'importance, et ils souffrent généralement d'inconvénients et de mises en garde:
- Ils peuvent être fortement dépendants de l'algorithme, comme dans les classements d'importance dans les forêts aléatoires et les gbms.
- Ils peuvent avoir une variance extrêmement élevée, changeant radicalement avec des perturbations des données sous-jacentes.
- Ils peuvent souffrir grandement de la corrélation dans les prédicteurs d'entrée.
Donc, avec tout cela dit, ma question est, quelles sont les utilisations statistiquement valides des classements d'importance variable, ou, quel est un argument convaincant (soit pour un statisticien ou un profane) pour la futilité d'un tel désir? Je m'intéresse à la fois aux arguments théoriques généraux et aux études de cas, selon ce qui serait le plus efficace pour faire valoir ce point.
glmnet
est disponible?