Statistiques et Big Data random-forest

1

Comment inclure un terme d'interaction dans un modèle de forêt aléatoire

J'utilise la fonction randomForestdans le randomForestpackage de R pour faire une régression. Cependant, lorsque j'essaie d'inclure un terme d'interaction dans les codes suivants: library(MASS) library(randomForest) Boston_f <- within(Boston, factor(rad)) mdl <- randomForest(lstat ~ rad * . , data = Boston_f) Le résultat mdl$terminclut une interaction, mais si je regarde dans …

9 r interaction random-forest

2

Incorporation de la distribution de probabilité de classe antérieure dans la régression logistique

Je suis étonné de ne pouvoir trouver aucun article / conférence sur la façon d'intégrer des distributions de probabilité de classe antérieures dans des classificateurs comme la régression logistique ou la forêt aléatoire. Ma question est donc: Comment peut-on incorporer la distribution de probabilité de classe antérieure dans la régression …

9 logistic bayesian random-forest prior

1

Puis-je combiner de nombreux arbres améliorant le gradient en utilisant la technique d'ensachage

Basé sur Gradient Boosting Tree vs Random Forest . GBDT et RF utilisant une stratégie différente pour lutter contre le biais et la variance. Ma question est la suivante: puis-je rééchantillonner l'ensemble de données (avec remplacement) pour former plusieurs GBDT et combiner leurs prédictions comme résultat final? C'est équivalent à …

8 random-forest cart boosting bagging gradient

1

Forêt aléatoire dans un cadre Big Data

J'ai un ensemble de données avec 5 818 446 lignes et 51 colonnes, dont 50 sont des prédicteurs. Ma réponse est quantitative, je suis donc intéressé par un modèle de régression. J'essaie d'adapter une forêt aléatoire à mes données en utilisant le package caret. Cependant, je n'ai pas assez de …

8 r random-forest large-data

6

Pourquoi prenons-nous la moyenne des prédictions de régression Random Forest?

Dans tous les articles sur la forêt aléatoire (de régression) que j'ai lus, quand vient le temps de rassembler les prédictions de tous les arbres, nous prenons la valeur moyenne comme prédiction. Ma question est pourquoi faisons-nous cela? Existe-t-il une justification statistique pour prendre la moyenne? EDIT: Pour clarifier la …

8 regression random-forest ensemble

1

Comment imputer une variable prédictive catégorielle manquante pour un modèle de forêt aléatoire?

J'ai un ensemble de données x, y que j'utilise pour construire une forêt aléatoire. Les données x sont un vecteur de valeurs qui inclut certaines NA. J'utilise donc rfImputepour gérer les données manquantes et créer une forêt aléatoire. Maintenant, j'ai une nouvelle observation invisible x (avec un NA) et je …

8 r random-forest missing-data

2

Comment prouver formellement que l'erreur OOB dans une forêt aléatoire n'est pas biaisée?

J'ai lu cette déclaration plusieurs fois mais je n'ai jamais trouvé de preuve. Je voudrais essayer d'en produire un moi-même mais je ne sais même pas quelle notation utiliser. Est-ce que quelqu'un peut m'aider avec ça?

8 mathematical-statistics random-forest unbiased-estimator proof

4

Qu'est-ce qu'un bon score OOB pour les forêts aléatoires avec Sklearn, classification à trois classes? [dupliquer]

Cette question a déjà des réponses ici : Mon modèle est-il bon, basé sur la valeur de la métrique de diagnostic ( / AUC / précision / RMSE, etc.)? R2R2R^2 (3 réponses) Fermé il y a 8 mois . J'ai des données d'apprentissage composées de ~ 45k échantillons, chacun a …

8 classification random-forest out-of-sample

3

La sélection des caractéristiques de Boruta (dans R) prend-elle en compte la corrélation entre les variables?

Je suis un peu novice en R et en sélection de fonctionnalités, et j'ai essayé le package Boruta pour sélectionner (diminuer) mon nombre de variables (n = 40). Je pensais que cette méthode prenait également en compte la corrélation possible entre les variables, cependant, deux (parmi les 20 variables sélectionnées) …

8 r feature-selection random-forest boruta

2

construction d'un modèle de classification pour les données strictement binaires

j'ai un ensemble de données strictement binaire. l'ensemble de valeurs de chaque variable appartient au domaine: vrai, faux. la propriété "spéciale" de cet ensemble de données est qu'une écrasante majorité des valeurs sont "fausses". j'ai déjà utilisé un algorithme d'apprentissage de réseau bayésien pour apprendre un réseau à partir des …

8 machine-learning classification svm random-forest bayesian-network

1

RandomForest ignore-t-il l'indépendance spatiale?

J'ai 5 variables pour chaque pays du monde et j'ai besoin d'analyser leur effet et leurs interactions sur une variable indépendante. Random Forest conviendrait à mon champ d'application car il traite des relations non linéaires et prédit l'importance des variables. Cependant, je me demande si la dépendance spatiale peut être …

8 random-forest spatial independence

4

Comment choisir la répartition dans la forêt aléatoire pour les prédicteurs catégoriels (fonctionnalités)?

Je comprends comment la meilleure répartition est choisie pour la forêt aléatoire pour les prédicteurs numériques (caractéristiques). Les prédicteurs numériques sont triés puis pour chaque valeur, l'impureté ou l'entropie de Gini est calculée et un seuil est choisi qui donne la meilleure répartition. Mais quelle est la meilleure répartition choisie …

8 machine-learning random-forest

3

Comment effectuer une classification Random Forest non supervisée en utilisant le code de Breiman?

Je travaille avec le code forestier aléatoire de Breiman ( http://stat-www.berkeley.edu/users/breiman/RandomForests/cc_manual.htm#c2 ) pour la classification des données satellites (apprentissage supervisé). J'utilise un ensemble de données de formation et de test ayant une taille d'échantillon de 2000 et une taille variable 10. Les données sont classées en deux classes, A et …

8 machine-learning classification random-forest

3

Idées pour produire une équation de prédiction pour les forêts aléatoires

J'ai lu les articles suivants qui ont répondu à la question que j'allais poser: Utilisez le modèle Random Forest pour faire des prédictions à partir des données des capteurs Arbre de décision pour la prédiction de sortie Voici ce que j'ai fait jusqu'à présent: j'ai comparé la régression logistique aux …

8 random-forest prediction

2

Imputation avec des forêts aléatoires

J'ai deux questions sur l'utilisation de la forêt aléatoire (spécifiquement randomForest dans R) pour l'imputation des valeurs manquantes (dans l'espace des prédicteurs). 1) Comment fonctionne l'algorithme d'imputation - en particulier comment et pourquoi l'étiquette de classe est-elle requise pour l'imputation? la matrice de proximité qui sert à pondérer la valeur …

8 data-mining predictive-models missing-data random-forest data-imputation

Questions marquées «random-forest»