Questions marquées «random-forest»

La forêt aléatoire est une méthode d'apprentissage automatique basée sur la combinaison des sorties de nombreux arbres de décision.

3
Quels devraient être les paramètres optimaux pour le classificateur Random Forest?
Actuellement j'utilise RF toolbox sur MATLAB pour un problème de classification binaire Ensemble de données: 50000 échantillons et plus de 250 fonctionnalités Alors, quel devrait être le nombre d'arbres et la fonction sélectionnée au hasard sur chaque division pour faire pousser les arbres? tout autre paramètre peut-il affecter considérablement les …

4
Faut-il se préoccuper de la multi-colinéarité lors de l'utilisation de modèles non linéaires?
Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre. Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi? Si la réponse à ce qui précède est vraie, comment la combattre si l'on …

1
Évaluer la forêt aléatoire: OOB vs CV
Lorsque nous évaluons la qualité d'une forêt aléatoire, par exemple en utilisant l'AUC, est-il plus approprié de calculer ces quantités sur les échantillons hors sac ou sur l'ensemble de validation croisée? J'entends que le calculer sur les échantillons OOB donne une évaluation plus pessimiste, mais je ne vois pas pourquoi.

3
La forêt aléatoire et l'amplification sont-elles paramétriques ou non paramétriques?
En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...). Breiman critique les modèles de données (paramétriques) car ils sont …

3
Forêt aléatoire sur des données structurées à plusieurs niveaux / hiérarchiques
Je suis assez nouveau dans l'apprentissage automatique, les techniques CART et autres, et j'espère que ma naïveté n'est pas trop évidente. Comment Random Forest gère-t-il les structures de données multi-niveaux / hiérarchiques (par exemple lorsque l'interaction entre niveaux est intéressante)? C'est-à-dire, des ensembles de données avec des unités d'analyse à …

1
Forêt aléatoire et prédiction
J'essaie de comprendre comment fonctionne Random Forest. J'ai une compréhension de la façon dont les arbres sont construits, mais je ne comprends pas comment Random Forest fait des prédictions sur l'échantillon hors du sac. Quelqu'un pourrait-il me donner une explication simple, s'il vous plaît? :)

2
Quand enregistrer / développer vos variables lors de l'utilisation de modèles de forêt aléatoires?
Je fais une régression en utilisant des forêts aléatoires pour prédire les prix en fonction de plusieurs attributs. Le code est écrit en Python à l'aide de Scikit-learn. Comment décidez-vous si vous devez transformer vos variables en utilisant exp/ logavant de l'utiliser pour l'adapter au modèle de régression? Est-il nécessaire …

3
PCA sur les données textuelles de grande dimension avant la classification aléatoire des forêts?
Est-il judicieux de faire de l'ACP avant d'effectuer une classification aléatoire des forêts? J'ai affaire à des données de texte de grande dimension, et je veux faire une réduction de fonctionnalités pour éviter la malédiction de la dimensionnalité, mais Random Forests ne fait-il pas déjà une sorte de réduction de …



1
Dans Random Forest, pourquoi un sous-ensemble aléatoire d'entités est-il choisi au niveau du nœud plutôt qu'au niveau de l'arbre?
Ma question: Pourquoi la forêt aléatoire considère-t-elle des sous-ensembles aléatoires de fonctionnalités pour la division au niveau du nœud dans chaque arbre plutôt qu'au niveau de l'arbre ? Contexte: Il s'agit d'une question d'histoire. Tin Kam Ho a publié ce document sur la construction de « forêts de décision » …



2
Meilleures pratiques pour coder les fonctionnalités catégorielles pour les arbres de décision?
Lors du codage des caractéristiques catégorielles pour la régression linéaire, il existe une règle: le nombre de variables muettes doit être inférieur de un au nombre total de niveaux (pour éviter la colinéarité). Existe-t-il une règle similaire pour les arbres de décision (ensachés, boostés)? Je pose cette question car une …


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.