J'ai reçu un script R de quelqu'un pour exécuter un modèle de forêt aléatoire. Je l'ai modifié et l'ai exécuté avec certaines données d'employé. Nous essayons de prédire les séparations volontaires.
Voici quelques informations supplémentaires: ceci est un modèle de classification où 0 = employé bloqué, 1 = employé licencié, nous examinons actuellement une dizaine de variables prédictives, les données sont "non équilibrées" en ce sens que les enregistrements terminés représentent environ 7 % du total des enregistrements.
Je lance le modèle avec différentes sélections de fichiers et de fichiers, mais je m'installe au-dessous. Le taux de rendement opérationnel est de 6,8%, ce qui est, à mon avis, bon, mais la matrice de confusion semble raconter une histoire différente pour prédire les termes puisque le taux d'erreur est assez élevé, à 92,79% . le taux d'erreur élevé pour prédire les termes? ou puis-je faire quelque chose pour utiliser RF et obtenir un taux d'erreur plus faible pour prédire les termes?
FOREST_model <- randomForest(theFormula, data=trainset, mtry=3, ntree=500, importance=TRUE, do.trace=100)
ntree OOB 1 2
100: 6.97% 0.47% 92.79%
200: 6.87% 0.36% 92.79%
300: 6.82% 0.33% 92.55%
400: 6.80% 0.29% 92.79%
500: 6.80% 0.29% 92.79%
> print(FOREST_model)
Call:
randomForest(formula = theFormula, data = trainset, mtry = 3, ntree = 500, importance = TRUE, do.trace = 100)
Type of random forest: classification
Number of trees: 500
No. of variables tried at each split: 3
OOB estimate of error rate: 6.8%
Confusion matrix:
0 1 class.error
0 5476 16 0.002913328
1 386 30 0.927884615
> nrow(trainset)
[1] 5908