J'ai un très grand ensemble de données et il manque environ 5% de valeurs aléatoires. Ces variables sont corrélées entre elles. L'exemple de jeu de données R suivant n'est qu'un exemple de jouet avec des données corrélées factices. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = …
J'essaie de comprendre comment utiliser l'apprentissage automatique pour prédire la série financière 1 étape ou plus dans le futur. J'ai une série temporelle financière avec des données descriptives et je voudrais former un modèle et ensuite utiliser le modèle pour prédire n étapes à venir. Ce que j'ai fait jusqu'à …
Une forêt aléatoire peut-elle être formée pour prédire correctement les données de comptage? Comment cela se passerait-il? J'ai une gamme de valeurs assez étendue, donc la classification n'a pas vraiment de sens. Si j'utilisais la régression, est-ce que je tronquerais simplement les résultats? Je suis assez perdu ici. Des idées?
Ma compréhension est que la forêt aléatoire choisit des variables aléatoires pour construire chaque arbre de décision. Donc, si mtry = ncol / 3, alors chaque variable sera utilisée en moyenne dans 1/3 des arbres. Et 2/3 des arbres ne les utiliseront pas. Mais que faire si je sais qu'une …
J'utilise le package randomForest dans R et j'utilise les données d'iris, la forêt aléatoire générée est une classification mais lorsque j'utilise un ensemble de données avec environ 700 entités (les entités sont chaque pixel dans une image de 28 x 28 pixels) et la colonne d'étiquette est nommée label, le …
Pour un récent concours Kaggle, j'ai (manuellement) défini 10 fonctionnalités supplémentaires pour mon ensemble d'entraînement, qui seraient ensuite utilisées pour former un classificateur de forêts aléatoires. J'ai décidé d'exécuter PCA sur l'ensemble de données avec les nouvelles fonctionnalités, pour voir comment elles se comparaient les unes aux autres. J'ai trouvé …
Quelle est la meilleure fonction de coût pour un arbre forestier aléatoire: indice de Gini ou entropie? J'essaie d'implémenter une forêt aléatoire à Clojure.
J'essaie de résoudre une tâche appelée détection des piétons et j'entraîne le clasifer binaire sur deux catégories positives - personnes, négatives - en arrière-plan. J'ai un ensemble de données: nombre de positifs = 3752 nombre de négatifs = 3800 J'utilise train \ test split 80 \ 20% et RandomForestClassifier forme …
J'utilise le package caret pour entraîner un objet randomForest avec 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Après cela, je teste randomForest sur un testSet (nouvelles données) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) La matrice de confusion me montre que le …
Je suis nouveau dans l'apprentissage automatique. J'ai appliqué une régression logistique et une forêt aléatoire sur un même ensemble de données. J'obtiens donc une importance variable (coefficient absolu pour la régression logistique et importance variable pour la forêt aléatoire). Je pense à combiner les deux pour obtenir une importance variable …
J'ai des données avec quelques milliers de fonctionnalités et je souhaite effectuer une sélection récursive des fonctionnalités (RFE) pour supprimer celles qui ne sont pas informatives. Je le fais avec caret et RFE. Cependant, j'ai commencé à penser, si je veux obtenir le meilleur ajustement de régression (forêt aléatoire, par …
Donc, j'ai une matrice d'environ 60 x 1000. Je la considère comme 60 objets avec 1000 fonctionnalités; les 60 objets sont regroupés en 3 classes (a, b, c). 20 objets dans chaque classe, et nous connaissons la véritable classification. J'aimerais faire un apprentissage supervisé sur cet ensemble de 60 exemples …
Je pense que c'est une question simple, bien que le raisonnement derrière pourquoi ou pourquoi ne le soit pas. La raison pour laquelle je demande, c'est que j'ai récemment écrit ma propre implémentation d'un RF et bien qu'il fonctionne bien, il ne fonctionne pas aussi bien que prévu (basé sur …
J'ai remarqué que lors de la construction de modèles de régression aléatoire des forêts, au moins dans R, la valeur prédite ne dépasse jamais la valeur maximale de la variable cible vue dans les données d'apprentissage. À titre d'exemple, consultez le code ci-dessous. Je construis un modèle de régression à …
D'après ma compréhension, les CNN se composent de deux parties. La première partie (couches conv / pool) qui fait l'extraction d'entités et la deuxième partie (couches fc) qui fait la classification des entités. Étant donné que les réseaux neuronaux entièrement connectés ne sont pas les meilleurs classificateurs (c'est-à-dire qu'ils sont …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.