J'ai couru un modèle xgboost. Je ne sais pas exactement comment interpréter le résultat de xgb.importance
.
Quelle est la signification de gain, couverture et fréquence et comment les interprète-t-on?
De plus, que signifient Split, RealCover et RealCover%? J'ai quelques paramètres supplémentaires ici
Existe-t-il d'autres paramètres pouvant en dire plus sur l'importance des fonctionnalités?
D'après la documentation R, je comprends un peu que le gain est quelque chose de similaire au gain d'information et que la fréquence correspond au nombre de fois qu'une fonctionnalité est utilisée dans tous les arbres. Je n'ai aucune idée de ce qu'est la couverture.
J'ai exécuté l'exemple de code donné dans le lien (et j'ai également essayé de faire de même pour le problème sur lequel je travaille), mais la définition de fractionnement indiquée ne correspond pas aux nombres que j'ai calculés.
importance_matrix
Sortie:
Feature Gain Cover Frequence
1: xxx 2.276101e-01 0.0618490331 1.913283e-02
2: xxxx 2.047495e-01 0.1337406946 1.373710e-01
3: xxxx 1.239551e-01 0.1032614896 1.319798e-01
4: xxxx 6.269780e-02 0.0431682707 1.098646e-01
5: xxxxx 6.004842e-02 0.0305611830 1.709108e-02
214: xxxxxxxxxx 4.599139e-06 0.0001551098 1.147052e-05
215: xxxxxxxxxx 4.500927e-06 0.0001665320 1.147052e-05
216: xxxxxxxxxxxx 3.899363e-06 0.0001536857 1.147052e-05
217: xxxxxxxxxxxxxx 3.619348e-06 0.0001808504 1.147052e-05
218: xxxxxxxxxxxxx 3.429679e-06 0.0001792233 1.147052e-05