J'utilise la fonction randomForestdans le randomForestpackage de R pour faire une régression. Cependant, lorsque j'essaie d'inclure un terme d'interaction dans les codes suivants: library(MASS) library(randomForest) Boston_f <- within(Boston, factor(rad)) mdl <- randomForest(lstat ~ rad * . , data = Boston_f) Le résultat mdl$terminclut une interaction, mais si je regarde dans …
Je suis étonné de ne pouvoir trouver aucun article / conférence sur la façon d'intégrer des distributions de probabilité de classe antérieures dans des classificateurs comme la régression logistique ou la forêt aléatoire. Ma question est donc: Comment peut-on incorporer la distribution de probabilité de classe antérieure dans la régression …
Basé sur Gradient Boosting Tree vs Random Forest . GBDT et RF utilisant une stratégie différente pour lutter contre le biais et la variance. Ma question est la suivante: puis-je rééchantillonner l'ensemble de données (avec remplacement) pour former plusieurs GBDT et combiner leurs prédictions comme résultat final? C'est équivalent à …
J'ai un ensemble de données avec 5 818 446 lignes et 51 colonnes, dont 50 sont des prédicteurs. Ma réponse est quantitative, je suis donc intéressé par un modèle de régression. J'essaie d'adapter une forêt aléatoire à mes données en utilisant le package caret. Cependant, je n'ai pas assez de …
Dans tous les articles sur la forêt aléatoire (de régression) que j'ai lus, quand vient le temps de rassembler les prédictions de tous les arbres, nous prenons la valeur moyenne comme prédiction. Ma question est pourquoi faisons-nous cela? Existe-t-il une justification statistique pour prendre la moyenne? EDIT: Pour clarifier la …
J'ai un ensemble de données x, y que j'utilise pour construire une forêt aléatoire. Les données x sont un vecteur de valeurs qui inclut certaines NA. J'utilise donc rfImputepour gérer les données manquantes et créer une forêt aléatoire. Maintenant, j'ai une nouvelle observation invisible x (avec un NA) et je …
J'ai lu cette déclaration plusieurs fois mais je n'ai jamais trouvé de preuve. Je voudrais essayer d'en produire un moi-même mais je ne sais même pas quelle notation utiliser. Est-ce que quelqu'un peut m'aider avec ça?
Cette question a déjà des réponses ici : Mon modèle est-il bon, basé sur la valeur de la métrique de diagnostic ( / AUC / précision / RMSE, etc.)? R2R2R^2 (3 réponses) Fermé il y a 8 mois . J'ai des données d'apprentissage composées de ~ 45k échantillons, chacun a …
Je suis un peu novice en R et en sélection de fonctionnalités, et j'ai essayé le package Boruta pour sélectionner (diminuer) mon nombre de variables (n = 40). Je pensais que cette méthode prenait également en compte la corrélation possible entre les variables, cependant, deux (parmi les 20 variables sélectionnées) …
j'ai un ensemble de données strictement binaire. l'ensemble de valeurs de chaque variable appartient au domaine: vrai, faux. la propriété "spéciale" de cet ensemble de données est qu'une écrasante majorité des valeurs sont "fausses". j'ai déjà utilisé un algorithme d'apprentissage de réseau bayésien pour apprendre un réseau à partir des …
J'ai 5 variables pour chaque pays du monde et j'ai besoin d'analyser leur effet et leurs interactions sur une variable indépendante. Random Forest conviendrait à mon champ d'application car il traite des relations non linéaires et prédit l'importance des variables. Cependant, je me demande si la dépendance spatiale peut être …
Je comprends comment la meilleure répartition est choisie pour la forêt aléatoire pour les prédicteurs numériques (caractéristiques). Les prédicteurs numériques sont triés puis pour chaque valeur, l'impureté ou l'entropie de Gini est calculée et un seuil est choisi qui donne la meilleure répartition. Mais quelle est la meilleure répartition choisie …
Je travaille avec le code forestier aléatoire de Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) pour la classification des données satellites (apprentissage supervisé). J'utilise un ensemble de données de formation et de test ayant une taille d'échantillon de 2000 et une taille variable 10. Les données sont classées en deux classes, A et …
J'ai lu les articles suivants qui ont répondu à la question que j'allais poser: Utilisez le modèle Random Forest pour faire des prédictions à partir des données des capteurs Arbre de décision pour la prédiction de sortie Voici ce que j'ai fait jusqu'à présent: j'ai comparé la régression logistique aux …
J'ai deux questions sur l'utilisation de la forêt aléatoire (spécifiquement randomForest dans R) pour l'imputation des valeurs manquantes (dans l'espace des prédicteurs). 1) Comment fonctionne l'algorithme d'imputation - en particulier comment et pourquoi l'étiquette de classe est-elle requise pour l'imputation? la matrice de proximité qui sert à pondérer la valeur …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.