Questions marquées «random-forest»

La forêt aléatoire est une méthode d'apprentissage automatique basée sur la combinaison des sorties de nombreux arbres de décision.






1
Forêt aléatoire vs Adaboost
Dans la section 7 de l'article Random Forests (Breiman, 1999), l'auteur énonce la conjecture suivante: "Adaboost est une forêt aléatoire". Quelqu'un a-t-il prouvé ou réfuté cela? Qu'est-ce qui a été fait pour prouver ou infirmer ce post 1999?

1
Prédiction probabiliste de forêt aléatoire vs vote majoritaire
Scikit learn semble utiliser la prédiction probabiliste au lieu du vote majoritaire pour la technique d'agrégation du modèle sans expliquer pourquoi (1.9.2.1. Forêts aléatoires). Y a-t-il une explication claire pourquoi? De plus, existe-t-il un bon article ou article de synthèse sur les différentes techniques d'agrégation de modèles pouvant être utilisées …



2
VarImp du curseur pour le modèle randomForest
J'ai du mal à comprendre comment varImpfonctionne la fonction pour un modèle randomForest avec le caretpackage. Dans l'exemple ci-dessous, la fonction var3 n'a aucune importance en utilisant la varImpfonction caret , mais le modèle final randomForest sous-jacent a une importance non nulle pour la fonction var3. pourquoi est-ce le cas? …
10 r  caret  random-forest 

1
Comment intégrer une valeur aberrante innovante à l'observation 48 dans mon modèle ARIMA?
Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1). J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine. Comment …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


1
randomForest et bug d'importance variable?
Je n'ai pas la différence entre le rfobject$importanceet importance(rfobject)dans la colonne MeanDecreaseAccuracy. Exemple: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 …

4
Existe-t-il un moyen d'utiliser la validation croisée pour effectuer une sélection de variable / fonctionnalité dans R?
J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …

6
Comparez le R au carré de deux modèles différents de forêt aléatoire
J'utilise le package randomForest dans R pour développer un modèle de forêt aléatoire pour essayer d'expliquer un résultat continu dans un ensemble de données "large" avec plus de prédicteurs que d'échantillons. Plus précisément, j'adapte un modèle RF permettant à la procédure de sélectionner parmi un ensemble de ~ 75 variables …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.