Statistiques et Big Data random-forest

2

Mesures d'importance variable dans les forêts aléatoires

J'ai joué avec des forêts aléatoires pour la régression et j'ai du mal à comprendre exactement ce que signifient les deux mesures d'importance et comment elles doivent être interprétées. La importance()fonction donne deux valeurs pour chaque variable: %IncMSEet IncNodePurity. Existe-t-il des interprétations simples pour ces 2 valeurs? En IncNodePurityparticulier, s’agit-il …

40 r machine-learning random-forest importance

1

calculé manuellement ne correspond pas à randomForest () pour tester de nouvelles données

Je sais que cette question est assez spécifique R, mais je pense peut-être à la variance des proportions expliquée, , de manière incorrecte. Voici.R2R2R^2 J'essaie d'utiliser le Rpaquet randomForest. J'ai des données d'entraînement et des données de test. Lorsque j'adapte un modèle de forêt aléatoire, la randomForestfonction vous permet de …

38 r correlation predictive-models random-forest r-squared

6

Améliorer la classification avec de nombreuses variables catégorielles

Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …

37 machine-learning classification categorical-data random-forest many-categories

3

Créer un «score de certitude» à partir des votes dans des forêts aléatoires?

Je cherche à former un classificateur qui établira une distinction entre les objets Type Aet ceux Type Bdont le nombre d’apprentissage est relativement important, soit environ 10 000 objets, dont la moitié environ Type Aet la moitié Type B. Le jeu de données comprend 100 entités continues détaillant les propriétés …

36 r machine-learning random-forest

3

Comment interpréter l'OOB et la matrice de confusion pour les forêts aléatoires?

J'ai reçu un script R de quelqu'un pour exécuter un modèle de forêt aléatoire. Je l'ai modifié et l'ai exécuté avec certaines données d'employé. Nous essayons de prédire les séparations volontaires. Voici quelques informations supplémentaires: ceci est un modèle de classification où 0 = employé bloqué, 1 = employé licencié, …

35 r classification error random-forest

3

Comment interpréter la diminution moyenne de l'exactitude et la diminution moyenne de GINI dans les modèles de forêt aléatoire

J'ai du mal à comprendre comment interpréter la sortie d'importance variable du paquet Random Forest. La diminution moyenne de la précision est généralement décrite comme "la diminution de la précision du modèle due à la permutation des valeurs dans chaque fonction". S'agit-il d'une déclaration concernant la fonctionnalité dans son ensemble …

34 r machine-learning classification random-forest

3

Comment les forêts aléatoires ne sont-elles pas sensibles aux valeurs aberrantes?

J'ai lu dans quelques sources, y compris celle-ci , que les forêts aléatoires ne sont pas sensibles aux valeurs aberrantes (par exemple, la régression logistique et les autres méthodes ML). Cependant, deux morceaux d'intuition me disent le contraire: Chaque fois qu'un arbre de décision est construit, tous les points doivent …

33 random-forest bootstrap outliers cart

2

Les variables hautement corrélées en forêt aléatoire ne vont-elles pas fausser la précision et la sélection des caractéristiques?

À mon sens, les variables hautement corrélées ne causeront pas de problèmes de multi-colinéarité dans un modèle de forêt aléatoire (corrigez-moi si je me trompe). Toutefois, si j’ai trop de variables contenant des informations similaires, le modèle pèsera-t-il trop sur cet ensemble plutôt que sur les autres? Par exemple, il …

32 random-forest multicollinearity ensemble

2

Importance relative d'un ensemble de prédicteurs dans une classification aléatoire des forêts dans R

Je voudrais déterminer l'importance relative des ensembles de variables par rapport à un randomForestmodèle de classification dans R. La importancefonction fournit la MeanDecreaseGinimétrique pour chaque prédicteur individuel - est-ce aussi simple que de les additionner à travers chaque prédicteur d'un ensemble? Par exemple: # Assumes df has variables a1, a2, …

31 r machine-learning classification random-forest

3

Dans quelle mesure R est-il adapté aux tâches de classification de texte? [fermé]

J'essaye d'obtenir jusqu'à la vitesse avec R. Je veux finalement utiliser les bibliothèques R pour faire la classification de texte. Je me demandais simplement quelles sont les expériences des gens en ce qui concerne l'évolutivité de R quand il s'agit de faire une classification de texte. Je suis susceptible de …

30 r machine-learning svm text-mining random-forest

2

Est-il essentiel de normaliser SVM et Random Forest?

Chaque dimension de mes fonctionnalités a une plage de valeurs différente. Je veux savoir s'il est essentiel de normaliser cet ensemble de données.

29 machine-learning svm random-forest normalization

3

R: Random Forest lançant NaN / Inf dans l'erreur «appel de fonction étrangère» malgré l'absence de NaN dans l'ensemble de données [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement de réponses. Voulez-vous améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé il y a 2 ans . J'utilise caret pour exécuter une forêt aléatoire validée de façon croisée …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Conversion de la matrice de similarité en matrice de distance (euclidienne)

Dans l'algorithme de forêt aléatoire, Breiman (auteur) construit la matrice de similarité comme suit: Envoyez tous les exemples d'apprentissage dans chaque arbre de la forêt Si deux exemples atterrissent dans le même incrément de feuille élément correspondant dans la matrice de similarité de 1 Normaliser la matrice avec le nombre …

27 random-forest distance similarities euclidean

4

Quand éviter la forêt aléatoire?

Les forêts aléatoires sont bien connues pour fonctionner assez bien sur une variété de tâches et ont été désignées comme l' homme du cuir des méthodes d'apprentissage . Y a-t-il des types de problèmes ou de conditions spécifiques dans lesquels il faut éviter d'utiliser une forêt aléatoire?

25 machine-learning classification random-forest

4

Existe-t-il une implémentation de forêt aléatoire qui fonctionne bien avec des données très rares?

Existe-t-il une implémentation de forêt aléatoire R qui fonctionne bien avec des données très rares? J'ai des milliers ou des millions de variables d'entrée booléennes, mais seules des centaines environ seront VRAIES pour un exemple donné. Je suis relativement nouveau dans R et j'ai remarqué qu'il existe un package 'Matrix' …

23 r random-forest sparse

Questions marquées «random-forest»