Statistiques et Big Data random-forest

1

La valeur R au carré est-elle appropriée pour comparer des modèles?

J'essaie d'identifier le meilleur modèle pour prédire les prix des automobiles, en utilisant les prix et les fonctionnalités disponibles sur les sites de petites annonces automobiles. Pour cela, j'ai utilisé quelques modèles de la bibliothèque scikit-learn et des modèles de réseaux neuronaux de pybrain et de neurolab. L'approche que j'ai …

17 machine-learning neural-networks random-forest r-squared elastic-net

3

Quels algorithmes nécessitent une mise à l'échelle des fonctionnalités, à côté de SVM?

Je travaille avec de nombreux algorithmes: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear et rbf), KNN, LDA et XGBoost. Tous étaient assez rapides à l'exception de SVM. C'est à ce moment que j'ai appris qu'il avait besoin d'une mise à l'échelle des fonctionnalités pour fonctionner plus rapidement. Ensuite, j'ai commencé …

17 machine-learning svm random-forest naive-bayes xgboost

1

Dans une forêt aléatoire, un% IncMSE plus important est-il meilleur ou pire?

Une fois que j'ai construit un modèle de forêt aléatoire (de régression) dans R, l'appel rf$importanceme fournit deux mesures pour chaque variable prédictive, %IncMSEet IncNodePurity. L'interprétation selon laquelle les variables prédictives avec des %IncMSEvaleurs plus petites sont plus importantes que les variables prédictives avec des %IncMSEvaleurs plus grandes ? Et …

17 r feature-selection random-forest

5

Pour une classification avec des forêts aléatoires en R, comment doit-on s'ajuster aux tailles de classe déséquilibrées?

J'explore différentes méthodes de classification pour un projet sur lequel je travaille et je suis intéressé à essayer Random Forests. J'essaie de m'instruire au fur et à mesure et j'apprécierais toute aide apportée par la communauté CV. J'ai divisé mes données en ensembles de formation / test. De l'expérimentation avec …

17 r machine-learning random-forest

2

Importance des fonctionnalités avec des variables muettes

J'essaie de comprendre comment je peux obtenir l'importance des fonctionnalités d'une variable catégorielle qui a été décomposée en variables fictives. J'utilise scikit-learn qui ne gère pas les variables catégorielles pour vous comme le font R ou H2O. Si je décompose une variable catégorielle en variables fictives, j'obtiens des importances de …

17 categorical-data random-forest interpretation importance

2

Une forêt aléatoire avec plusieurs sorties serait-elle possible / pratique?

Les forêts aléatoires (RF) sont une méthode compétitive de modélisation / extraction de données. Un modèle RF a une sortie - la variable sortie / prédiction. L'approche naïve de la modélisation de plusieurs sorties avec des RF serait de construire une RF pour chaque variable de sortie. Nous avons donc …

17 machine-learning cart random-forest multilabel

2

Sélection de fonctionnalités avec Random Forests

J'ai un ensemble de données avec principalement des variables financières (120 fonctionnalités, 4k exemples) qui sont pour la plupart hautement corrélées et très bruyantes (indicateurs techniques, par exemple), donc je voudrais sélectionner environ 20-30 max pour une utilisation ultérieure avec la formation de modèle (classification binaire - augmentation Diminution). Je …

16 feature-selection random-forest python

2

Dans quelles conditions les machines de renforcement de gradient surpassent-elles les forêts aléatoires?

La machine de boosting de gradient de Friedman peut -elle obtenir de meilleures performances que la forêt aléatoire de Breiman ? Si oui, dans quelles conditions ou quel type de jeu de données peut-il améliorer gbm?

16 machine-learning data-mining random-forest boosting

4

Faible précision de classification, que faire ensuite?

Donc, je suis un débutant dans le domaine ML et j'essaie de faire un certain classement. Mon objectif est de prédire l'issue d'un événement sportif. J'ai rassemblé quelques données historiques et j'essaie maintenant de former un classificateur. J'ai obtenu environ 1200 échantillons, 0,2 d'entre eux que j'ai séparés à des …

16 classification svm feature-selection random-forest

1

Forfait R pour la forêt aléatoire pondérée? option classwt?

J'essaie d'utiliser Random Forest pour prédire le résultat d'un ensemble de données extrêmement déséquilibré (le taux de classe minoritaire n'est que d'environ 1% ou même moins). Étant donné que l'algorithme traditionnel de la forêt aléatoire minimise le taux d'erreur global, plutôt que d'accorder une attention particulière aux classes minoritaires, il …

16 r random-forest

2

La forêt aléatoire a-t-elle besoin de variables d'entrée pour être mise à l'échelle ou centrée?

Mes variables d'entrée ont des dimensions différentes. Certaines variables sont décimales tandis que d'autres sont des centaines. Est-il essentiel de centrer (soustraire la moyenne) ou de mettre à l'échelle (diviser par l'écart-type) ces variables d'entrée afin de rendre les données sans dimension lors de l'utilisation d'une forêt aléatoire?

16 random-forest standardization data-preprocessing centering

3

Comment «predire.randomForest» estime-t-il les probabilités de classe?

Comment le randomForestpackage estime-t-il les probabilités de classe lorsque j'utilise predict(model, data, type = "prob")? J'utilisais rangerpour former des forêts aléatoires en utilisant l' probability = Targument pour prédire les probabilités. rangerdit dans la documentation qu'il: Cultivez une forêt probabiliste comme dans Malley et al. (2012). J'ai simulé quelques données …

16 r random-forest prediction

2

Une erreur hors du sac rend le CV inutile dans les forêts aléatoires?

Je suis relativement nouveau dans les forêts aléatoires. Dans le passé, j'ai toujours comparé la précision de l' ajustement vs le test à l' ajustement vs le train pour détecter tout sur-ajustement. Mais je viens de lire ici que: "Dans les forêts aléatoires, il n'y a pas besoin de validation …

15 cross-validation random-forest overfitting

1

La forêt aléatoire de Breiman utilise-t-elle un gain d'informations ou un indice de Gini?

Je voudrais savoir si la forêt aléatoire de Breiman (forêt aléatoire dans le package R randomForest) utilise comme critère de fractionnement (critère de sélection d'attribut) le gain d'informations ou l'indice de Gini? J'ai essayé de le découvrir sur http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm et dans la documentation du paquet randomForest dans R. Mais la …

15 r random-forest entropy gini

1

Diminution de Gini et impureté de Gini des nœuds enfants

Je travaille sur la mesure d'importance de la fonctionnalité Gini pour la forêt aléatoire. Par conséquent, je dois calculer la diminution de Gini de l'impureté du nœud. Voici la façon dont je le fais, ce qui conduit à un conflit avec la définition, suggérant que je dois me tromper quelque …

15 feature-selection random-forest cart

Questions marquées «random-forest»