Dans une forêt aléatoire, un% IncMSE plus important est-il meilleur ou pire?


17

Une fois que j'ai construit un modèle de forêt aléatoire (de régression) dans R, l'appel rf$importanceme fournit deux mesures pour chaque variable prédictive, %IncMSEet IncNodePurity. L'interprétation selon laquelle les variables prédictives avec des %IncMSEvaleurs plus petites sont plus importantes que les variables prédictives avec des %IncMSEvaleurs plus grandes ?

Et pour IncNodePurity?

Réponses:


30

% IncMSE est la mesure la plus robuste et la plus informative. Il s'agit de l'augmentation de mse des prédictions (estimée avec le CV hors sac) à la suite de la permutation de la variable j (mélange aléatoire des valeurs).

  1. cultiver une forêt de régression. Calculez OOB-mse, nommez ce mse0.
  2. pour 1 à j var: permuter les valeurs de la colonne j, puis prédire et calculer OOB-mse (j)
  3. % IncMSE de j'th est (mse (j) -mse0) / mse0 * 100%

le plus grand nombre, le plus important

IncNodePurity se rapporte à la fonction de perte qui est choisie par les meilleures divisions. La fonction de perte est mse pour la régression et gini-impureté pour la classification. Des variables plus utiles atteignent des augmentations plus élevées de la pureté des nœuds, c'est-à-dire de trouver une division qui a une «variance» inter-nœuds élevée et une petite «variance» intra-nœuds. IncNodePurity est biaisé et ne doit être utilisé que si le temps de calcul supplémentaire du calcul de% IncMSE est inacceptable. Comme il ne faut que 5 à 25% de temps supplémentaire pour calculer le% IncMSE, cela ne se produirait presque jamais.

Une question et une réponse similaire

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.