J'ai une régression aléatoire de la forêt construite en utilisant skl et je note que je donne des résultats différents basés sur la définition de la valeur aléatoire de la graine aléatoire. Si j'utilise LOOCV pour déterminer quelle graine fonctionne le mieux, est-ce une méthode valide?
J'essaie de tester la capacité d'une forêt aléatoire à classer les échantillons entre 2 groupes; Il y a 54 échantillons et différents nombres de variables utilisés pour la classification. Je me demandais pourquoi les estimations hors du sac (OOB) peuvent varier jusqu'à 5% les unes des autres même lorsque j'utilise …
J'essaie d'utiliser la régression RF pour faire des prédictions sur les performances d'une papeterie. J'ai des données minute par minute pour les intrants (taux et quantité de pâte de bois entrant dans etc ...) ainsi que pour les performances de la machine (papier produit, puissance tirée par la machine) et …
Prise en charge des machines vectorielles avec noyau de fonction à base radiale est un classificateur supervisé à usage général. Bien que je connaisse les fondements théoriques de ces SVM et leurs points forts, je ne connais pas les cas dans lesquels ils sont la méthode préférée. Alors, y a-t-il …
Pour autant que je l'ai vu, les opinions ont tendance à différer à ce sujet. Les meilleures pratiques dicteraient certainement l'utilisation de la validation croisée (surtout si l'on compare les RF avec d'autres algorithmes sur le même ensemble de données). D'un autre côté, la source d'origine indique que le fait …
Dans la section 7 de l'article Random Forests (Breiman, 1999), l'auteur énonce la conjecture suivante: "Adaboost est une forêt aléatoire". Quelqu'un a-t-il prouvé ou réfuté cela? Qu'est-ce qui a été fait pour prouver ou infirmer ce post 1999?
Scikit learn semble utiliser la prédiction probabiliste au lieu du vote majoritaire pour la technique d'agrégation du modèle sans expliquer pourquoi (1.9.2.1. Forêts aléatoires). Y a-t-il une explication claire pourquoi? De plus, existe-t-il un bon article ou article de synthèse sur les différentes techniques d'agrégation de modèles pouvant être utilisées …
J'ai lu de la littérature que les forêts aléatoires ne peuvent pas saturer. Bien que cela semble génial, cela semble trop beau pour être vrai. Est-il possible pour les RF de sur-équiper?
Toute la littérature sur la modélisation de la répartition des espèces suggère que lors de la prévision de la présence / absence d'une espèce à l'aide d'un modèle qui génère des probabilités (par exemple, RandomForests), le choix de la probabilité seuil par laquelle classer réellement une espèce comme présence ou …
J'ai du mal à comprendre comment varImpfonctionne la fonction pour un modèle randomForest avec le caretpackage. Dans l'exemple ci-dessous, la fonction var3 n'a aucune importance en utilisant la varImpfonction caret , mais le modèle final randomForest sous-jacent a une importance non nulle pour la fonction var3. pourquoi est-ce le cas? …
Je travaille sur un ensemble de données. Après avoir utilisé certaines techniques d'identification de modèle, je suis sorti avec un modèle ARIMA (0,2,1). J'ai utilisé la detectIOfonction dans le package TSAen R pour détecter une valeur aberrante innovante (IO) à la 48e observation de mon ensemble de données d'origine. Comment …
Les méthodes d'ensemble basées sur des arbres telles que la forêt aléatoire et les dérivés subséquents (par exemple, la forêt conditionnelle), prétendent toutes être utiles dans les problèmes dits «petits n , grands p », pour identifier l'importance relative des variables. En effet, cela semble être le cas, mais ma …
J'ai un ensemble de données avec environ 70 variables que j'aimerais réduire. Ce que je cherche à faire, c'est d'utiliser CV pour trouver les variables les plus utiles de la manière suivante. 1) Sélectionnez au hasard disons 20 variables. 2) Utilisez stepwise/ LASSO/ lars/ etc pour choisir les variables les …
J'utilise le package randomForest dans R pour développer un modèle de forêt aléatoire pour essayer d'expliquer un résultat continu dans un ensemble de données "large" avec plus de prédicteurs que d'échantillons. Plus précisément, j'adapte un modèle RF permettant à la procédure de sélectionner parmi un ensemble de ~ 75 variables …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.