J'essaie d'identifier le meilleur modèle pour prédire les prix des automobiles, en utilisant les prix et les fonctionnalités disponibles sur les sites de petites annonces automobiles. Pour cela, j'ai utilisé quelques modèles de la bibliothèque scikit-learn et des modèles de réseaux neuronaux de pybrain et de neurolab. L'approche que j'ai …
Je travaille avec de nombreux algorithmes: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear et rbf), KNN, LDA et XGBoost. Tous étaient assez rapides à l'exception de SVM. C'est à ce moment que j'ai appris qu'il avait besoin d'une mise à l'échelle des fonctionnalités pour fonctionner plus rapidement. Ensuite, j'ai commencé …
Une fois que j'ai construit un modèle de forêt aléatoire (de régression) dans R, l'appel rf$importanceme fournit deux mesures pour chaque variable prédictive, %IncMSEet IncNodePurity. L'interprétation selon laquelle les variables prédictives avec des %IncMSEvaleurs plus petites sont plus importantes que les variables prédictives avec des %IncMSEvaleurs plus grandes ? Et …
J'explore différentes méthodes de classification pour un projet sur lequel je travaille et je suis intéressé à essayer Random Forests. J'essaie de m'instruire au fur et à mesure et j'apprécierais toute aide apportée par la communauté CV. J'ai divisé mes données en ensembles de formation / test. De l'expérimentation avec …
J'essaie de comprendre comment je peux obtenir l'importance des fonctionnalités d'une variable catégorielle qui a été décomposée en variables fictives. J'utilise scikit-learn qui ne gère pas les variables catégorielles pour vous comme le font R ou H2O. Si je décompose une variable catégorielle en variables fictives, j'obtiens des importances de …
Les forêts aléatoires (RF) sont une méthode compétitive de modélisation / extraction de données. Un modèle RF a une sortie - la variable sortie / prédiction. L'approche naïve de la modélisation de plusieurs sorties avec des RF serait de construire une RF pour chaque variable de sortie. Nous avons donc …
J'ai un ensemble de données avec principalement des variables financières (120 fonctionnalités, 4k exemples) qui sont pour la plupart hautement corrélées et très bruyantes (indicateurs techniques, par exemple), donc je voudrais sélectionner environ 20-30 max pour une utilisation ultérieure avec la formation de modèle (classification binaire - augmentation Diminution). Je …
La machine de boosting de gradient de Friedman peut -elle obtenir de meilleures performances que la forêt aléatoire de Breiman ? Si oui, dans quelles conditions ou quel type de jeu de données peut-il améliorer gbm?
Donc, je suis un débutant dans le domaine ML et j'essaie de faire un certain classement. Mon objectif est de prédire l'issue d'un événement sportif. J'ai rassemblé quelques données historiques et j'essaie maintenant de former un classificateur. J'ai obtenu environ 1200 échantillons, 0,2 d'entre eux que j'ai séparés à des …
J'essaie d'utiliser Random Forest pour prédire le résultat d'un ensemble de données extrêmement déséquilibré (le taux de classe minoritaire n'est que d'environ 1% ou même moins). Étant donné que l'algorithme traditionnel de la forêt aléatoire minimise le taux d'erreur global, plutôt que d'accorder une attention particulière aux classes minoritaires, il …
Mes variables d'entrée ont des dimensions différentes. Certaines variables sont décimales tandis que d'autres sont des centaines. Est-il essentiel de centrer (soustraire la moyenne) ou de mettre à l'échelle (diviser par l'écart-type) ces variables d'entrée afin de rendre les données sans dimension lors de l'utilisation d'une forêt aléatoire?
Comment le randomForestpackage estime-t-il les probabilités de classe lorsque j'utilise predict(model, data, type = "prob")? J'utilisais rangerpour former des forêts aléatoires en utilisant l' probability = Targument pour prédire les probabilités. rangerdit dans la documentation qu'il: Cultivez une forêt probabiliste comme dans Malley et al. (2012). J'ai simulé quelques données …
Je suis relativement nouveau dans les forêts aléatoires. Dans le passé, j'ai toujours comparé la précision de l' ajustement vs le test à l' ajustement vs le train pour détecter tout sur-ajustement. Mais je viens de lire ici que: "Dans les forêts aléatoires, il n'y a pas besoin de validation …
Je voudrais savoir si la forêt aléatoire de Breiman (forêt aléatoire dans le package R randomForest) utilise comme critère de fractionnement (critère de sélection d'attribut) le gain d'informations ou l'indice de Gini? J'ai essayé de le découvrir sur http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm et dans la documentation du paquet randomForest dans R. Mais la …
Je travaille sur la mesure d'importance de la fonctionnalité Gini pour la forêt aléatoire. Par conséquent, je dois calculer la diminution de Gini de l'impureté du nœud. Voici la façon dont je le fais, ce qui conduit à un conflit avec la définition, suggérant que je dois me tromper quelque …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.