J'ai joué avec des forêts aléatoires pour la régression et j'ai du mal à comprendre exactement ce que signifient les deux mesures d'importance et comment elles doivent être interprétées. La importance()fonction donne deux valeurs pour chaque variable: %IncMSEet IncNodePurity. Existe-t-il des interprétations simples pour ces 2 valeurs? En IncNodePurityparticulier, s’agit-il …
Je sais que cette question est assez spécifique R, mais je pense peut-être à la variance des proportions expliquée, , de manière incorrecte. Voici.R2R2R^2 J'essaie d'utiliser le Rpaquet randomForest. J'ai des données d'entraînement et des données de test. Lorsque j'adapte un modèle de forêt aléatoire, la randomForestfonction vous permet de …
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …
Je cherche à former un classificateur qui établira une distinction entre les objets Type Aet ceux Type Bdont le nombre d’apprentissage est relativement important, soit environ 10 000 objets, dont la moitié environ Type Aet la moitié Type B. Le jeu de données comprend 100 entités continues détaillant les propriétés …
J'ai reçu un script R de quelqu'un pour exécuter un modèle de forêt aléatoire. Je l'ai modifié et l'ai exécuté avec certaines données d'employé. Nous essayons de prédire les séparations volontaires. Voici quelques informations supplémentaires: ceci est un modèle de classification où 0 = employé bloqué, 1 = employé licencié, …
J'ai du mal à comprendre comment interpréter la sortie d'importance variable du paquet Random Forest. La diminution moyenne de la précision est généralement décrite comme "la diminution de la précision du modèle due à la permutation des valeurs dans chaque fonction". S'agit-il d'une déclaration concernant la fonctionnalité dans son ensemble …
J'ai lu dans quelques sources, y compris celle-ci , que les forêts aléatoires ne sont pas sensibles aux valeurs aberrantes (par exemple, la régression logistique et les autres méthodes ML). Cependant, deux morceaux d'intuition me disent le contraire: Chaque fois qu'un arbre de décision est construit, tous les points doivent …
À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …
Je voudrais déterminer l'importance relative des ensembles de variables par rapport à un randomForestmodèle de classification dans R. La importancefonction fournit la MeanDecreaseGinimétrique pour chaque prédicteur individuel - est-ce aussi simple que de les additionner à travers chaque prédicteur d'un ensemble? Par exemple: # Assumes df has variables a1, a2, …
J'essaye d'obtenir jusqu'à la vitesse avec R. Je veux finalement utiliser les bibliothèques R pour faire la classification de texte. Je me demandais simplement quelles sont les expériences des gens en ce qui concerne l'évolutivité de R quand il s'agit de faire une classification de texte. Je suis susceptible de …
Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …
Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …
Les forêts aléatoires sont bien connues pour fonctionner assez bien sur une variété de tâches et ont été désignées comme l' homme du cuir des méthodes d'apprentissage . Y a-t-il des types de problèmes ou de conditions spécifiques dans lesquels il faut éviter d'utiliser une forêt aléatoire?
Existe-t-il une implémentation de forêt aléatoire R qui fonctionne bien avec des données très rares? J'ai des milliers ou des millions de variables d'entrée booléennes, mais seules des centaines environ seront VRAIES pour un exemple donné. Je suis relativement nouveau dans R et j'ai remarqué qu'il existe un package 'Matrix' …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.