Actuellement j'utilise RF toolbox sur MATLAB pour un problème de classification binaire Ensemble de données: 50000 échantillons et plus de 250 fonctionnalités Alors, quel devrait être le nombre d'arbres et la fonction sélectionnée au hasard sur chaque division pour faire pousser les arbres? tout autre paramètre peut-il affecter considérablement les …
Supposons que nous ayons un problème de classification binaire avec des fonctionnalités principalement catégorielles. Nous utilisons un modèle non linéaire (par exemple XGBoost ou Random Forests) pour l'apprendre. Faut-il encore se préoccuper de la multi-colinéarité? Pourquoi? Si la réponse à ce qui précède est vraie, comment la combattre si l'on …
Lorsque nous évaluons la qualité d'une forêt aléatoire, par exemple en utilisant l'AUC, est-il plus approprié de calculer ces quantités sur les échantillons hors sac ou sur l'ensemble de validation croisée? J'entends que le calculer sur les échantillons OOB donne une évaluation plus pessimiste, mais je ne vois pas pourquoi.
En lisant l'excellente modélisation statistique: Les deux cultures (Breiman 2001) , nous pouvons saisir toute la différence entre les modèles statistiques traditionnels (par exemple, la régression linéaire) et les algorithmes d'apprentissage automatique (par exemple, Bagging, Random Forest, Boosted trees ...). Breiman critique les modèles de données (paramétriques) car ils sont …
Je suis assez nouveau dans l'apprentissage automatique, les techniques CART et autres, et j'espère que ma naïveté n'est pas trop évidente. Comment Random Forest gère-t-il les structures de données multi-niveaux / hiérarchiques (par exemple lorsque l'interaction entre niveaux est intéressante)? C'est-à-dire, des ensembles de données avec des unités d'analyse à …
J'essaie de comprendre comment fonctionne Random Forest. J'ai une compréhension de la façon dont les arbres sont construits, mais je ne comprends pas comment Random Forest fait des prédictions sur l'échantillon hors du sac. Quelqu'un pourrait-il me donner une explication simple, s'il vous plaît? :)
Je fais une régression en utilisant des forêts aléatoires pour prédire les prix en fonction de plusieurs attributs. Le code est écrit en Python à l'aide de Scikit-learn. Comment décidez-vous si vous devez transformer vos variables en utilisant exp/ logavant de l'utiliser pour l'adapter au modèle de régression? Est-il nécessaire …
Est-il judicieux de faire de l'ACP avant d'effectuer une classification aléatoire des forêts? J'ai affaire à des données de texte de grande dimension, et je veux faire une réduction de fonctionnalités pour éviter la malédiction de la dimensionnalité, mais Random Forests ne fait-il pas déjà une sorte de réduction de …
J'essaie de faire des prédictions en utilisant un modèle de forêt aléatoire dans R. Cependant, je reçois des erreurs car certains facteurs ont des valeurs différentes dans l'ensemble de test que dans l'ensemble d'entraînement. Par exemple, un facteur Cat_2a des valeurs 34, 68, 76, etc., dans l'ensemble de test qui …
Je joue avec randomForest et j'ai constaté qu'en augmentant généralement sampSize, les performances étaient meilleures. Existe-t-il une règle / formule / etc. qui suggère quelle devrait être la taille optimale de sampSize ou s'agit-il d'un essai et d'une erreur? Je suppose qu'une autre façon de le formuler; quels sont mes …
Ma question: Pourquoi la forêt aléatoire considère-t-elle des sous-ensembles aléatoires de fonctionnalités pour la division au niveau du nœud dans chaque arbre plutôt qu'au niveau de l'arbre ? Contexte: Il s'agit d'une question d'histoire. Tin Kam Ho a publié ce document sur la construction de « forêts de décision » …
J'ai lu sur ce site qu'apparemment, le Kinect utilise l' algorithme des forêts aléatoires pour l'apprentissage automatique d'une manière ou d'une autre. Quelqu'un peut-il expliquer pourquoi il utilise des forêts aléatoires et comment fonctionne son approche?
J'ai un ensemble de données comprenant 24 lignes de données mensuelles. Les caractéristiques sont le PIB, les arrivées aux aéroports, le mois et quelques autres. La variable dépendante est le nombre de visiteurs d'une destination touristique populaire. Random Forest conviendrait-il à un tel problème? Les données ne sont pas publiques, …
Lors du codage des caractéristiques catégorielles pour la régression linéaire, il existe une règle: le nombre de variables muettes doit être inférieur de un au nombre total de niveaux (pour éviter la colinéarité). Existe-t-il une règle similaire pour les arbres de décision (ensachés, boostés)? Je pose cette question car une …
J'utilise le RandomForestpackage R et je ne sais pas comment interpréter les valeurs de l'axe Y dans leurs graphiques de dépendance partielle. Les documents d'aide indiquent que l'intrigue est une "représentation graphique de l'effet marginal d'une variable sur la probabilité de classe". Cependant, je suis toujours confus quant à ce …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.