J'ai construit un classificateur de régression logistique qui est très précis sur mes données. Maintenant, je veux mieux comprendre pourquoi cela fonctionne si bien. Plus précisément, j'aimerais classer les fonctionnalités qui apportent la plus grande contribution (quelles fonctionnalités sont les plus importantes) et, idéalement, quantifier dans quelle mesure chaque fonctionnalité contribue à la précision du modèle global (ou quelque chose dans ce sens). Comment puis-je faire cela?
Ma première pensée a été de les classer en fonction de leur coefficient, mais je soupçonne que cela ne peut pas être correct. Si j'ai deux caractéristiques qui sont également utiles, mais que la propagation de la première est dix fois plus grande que la seconde, je m'attendrais à ce que la première reçoive un coefficient inférieur à la seconde. Existe-t-il un moyen plus raisonnable d'évaluer l'importance des fonctionnalités?
Notez que je n'essaie pas de comprendre dans quelle mesure un petit changement dans la fonctionnalité affecte la probabilité du résultat. J'essaie plutôt de comprendre la valeur de chaque fonctionnalité, en termes de précision du classificateur. De plus, mon objectif n'est pas tant d'effectuer la sélection des fonctionnalités ou de construire un modèle avec moins de fonctionnalités, mais d'essayer de fournir une certaine "explicabilité" au modèle appris, de sorte que le classifieur n'est pas seulement une boîte noire opaque.