Lors de la construction d'un modèle CART (spécifiquement l'arbre de classification) à l'aide de rpart (dans R), il est souvent intéressant de savoir quelle est l'importance des différentes variables introduites dans le modèle.
Ainsi, ma question est: Quelles sont les mesures communes existantes pour classer / mesurer l'importance des variables participantes dans un modèle CART? Et comment cela peut-il être calculé à l'aide de R (par exemple, lors de l'utilisation du package rpart)
Par exemple, voici un code factice, créé pour que vous puissiez y montrer vos solutions. Cet exemple est structuré de sorte qu'il est clair que les variables x1 et x2 sont "importantes" tandis que (dans un certain sens) x1 est plus important que x2 (puisque x1 devrait s'appliquer à plus de cas, donc avoir plus d'influence sur la structure des données, puis x2).
set.seed(31431)
n <- 400
x1 <- rnorm(n)
x2 <- rnorm(n)
x3 <- rnorm(n)
x4 <- rnorm(n)
x5 <- rnorm(n)
X <- data.frame(x1,x2,x3,x4,x5)
y <- sample(letters[1:4], n, T)
y <- ifelse(X[,2] < -1 , "b", y)
y <- ifelse(X[,1] < 0 , "a", y)
require(rpart)
fit <- rpart(y~., X)
plot(fit); text(fit)
info.gain.rpart(fit) # your function - telling us on each variable how important it is
(les références sont toujours les bienvenues)