Question en une phrase: quelqu'un sait-il comment déterminer les bons poids de classe pour une forêt aléatoire? Explication: je joue avec des jeux de données déséquilibrés. Je veux utiliser le Rpackage randomForestpour former un modèle sur un ensemble de données très asymétrique avec seulement de petits exemples positifs et de …
En jouant avec le Boston Housing Dataset et RandomForestRegressor(avec les paramètres par défaut) dans scikit-learn, j'ai remarqué quelque chose d'étrange: le score moyen de validation croisée a diminué lorsque j'ai augmenté le nombre de plis au-delà de 10. Ma stratégie de validation croisée était la suivante: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …
En ce qui concerne les arbres de décision, la valeur prédite peut-elle se situer en dehors de la plage des données de formation? Par exemple, si la plage de l'ensemble de données d'apprentissage de la variable cible est 0-100, lorsque je génère mon modèle et l'applique à autre chose, mes …
L'implémentation randomForest ne permet pas l'échantillonnage au-delà du nombre d'observations, même lors d'un échantillonnage avec remplacement. Pourquoi est-ce? Fonctionne bien: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Ce que je veux faire: rf <- randomForest(Species ~ ., iris, sampsize=c(51, …
Une forêt aléatoire est une collection d' arbres de décision formés en sélectionnant de manière aléatoire uniquement certaines fonctionnalités avec lesquelles construire chaque arbre (et parfois en ensachant les données d'entraînement). Apparemment, ils apprennent et se généralisent bien. Quelqu'un a-t-il effectué un échantillonnage MCMC de l'espace de l'arbre de décision …
Je veux former un classificateur, par exemple SVM, ou une forêt aléatoire, ou tout autre classificateur. L'une des fonctionnalités de l'ensemble de données est une variable catégorielle avec 1000 niveaux. Quelle est la meilleure façon de réduire le nombre de niveaux dans cette variable. Dans R, il y a une …
Disons que j'ai un modèle de classification prédictif basé sur une forêt aléatoire (en utilisant le package randomForest dans R). Je voudrais le configurer pour que les utilisateurs finaux puissent spécifier un élément pour lequel générer une prédiction, et cela produira une probabilité de classification. Jusqu'à présent, aucun problème. Mais …
Si nous considérons un arbre de décision complet (c'est-à-dire un arbre de décision non élagué), il présente une variance élevée et un faible biais. L'ensachage et les forêts aléatoires utilisent ces modèles à variance élevée et les agrègent afin de réduire la variance et ainsi améliorer la précision des prévisions. …
Je suis tombé sur le terme de proximité dans des forêts aléatoires. Mais je ne pouvais pas comprendre ce qu'il fait dans des forêts aléatoires. Comment cela aide-t-il à des fins de classification?
La méthode que je connais pour construire une forêt aléatoire est la suivante: (à partir de http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Pour construire un arbre dans la forêt, nous: Bootstrap un échantillon de taille N où N est la taille de notre ensemble d'entraînement. Utilisez cet exemple amorcé comme ensemble de formation pour …
Existe-t-il un moyen d'obtenir un score de confiance (on peut également l'appeler valeur de confiance ou probabilité) pour chaque valeur prédite lors de l'utilisation d'algorithmes comme Random Forests ou Extreme Gradient Boosting (XGBoost)? Supposons que ce score de confiance varie de 0 à 1 et montre à quel point je …
J'adapte un ensemble de données avec une classe cible binaire par la forêt aléatoire. En python, je peux le faire soit par randomforestclassifier ou randomforestregressor. Je peux obtenir la classification directement à partir de randomforestclassifier ou je pourrais d'abord exécuter randomforestregressor et récupérer un ensemble de scores estimés (valeur continue). …
J'utilise la forêt aléatoire sur des données groupées de grande dimension (50 variables d'entrée numériques) qui ont une structure hiérarchique. Les données ont été collectées avec 6 réplications à 30 positions de 70 objets différents résultant en 12600 points de données, qui ne sont pas indépendants. Il semble que la …
Je travaille sur un problème multiclasse avec 9 labels possibles, pour lesquels j'ai un jeu de données composé de ~ 50 000 exemples et ~ 200 fonctionnalités chacun. Chaque exemple ne peut appartenir qu'à une seule classe. Les données sont assez équilibrées entre les différentes étiquettes. Compte tenu de sa …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.