Statistiques et Big Data prediction

1

J'essaie de comprendre comment fonctionne Random Forest. J'ai une compréhension de la façon dont les arbres sont construits, mais je ne comprends pas comment Random Forest fait des prédictions sur l'échantillon hors du sac. Quelqu'un pourrait-il me donner une explication simple, s'il vous plaît? :)

13 random-forest prediction

1

Prédiction sur les modèles à effets mixtes: que faire des effets aléatoires?

Prenons cet ensemble de données hypothétique: set.seed(12345) num.subjects <- 10 dose <- rep(c(1,10,50,100), num.subjects) subject <- rep(1:num.subjects, each=4) group <- rep(1:2, each=num.subjects/2*4) response <- dose*dose/10 * group + rnorm(length(dose), 50, 30) df <- data.frame(dose=dose, response=response, subject=subject, group=group) nous pouvons utiliser lmepour modéliser la réponse avec un modèle à effet aléatoire: …

13 mixed-model linear-model prediction

3

Prédiction des données de comptage avec une forêt aléatoire

Une forêt aléatoire peut-elle être formée pour prédire correctement les données de comptage? Comment cela se passerait-il? J'ai une gamme de valeurs assez étendue, donc la classification n'a pas vraiment de sens. Si j'utilisais la régression, est-ce que je tronquerais simplement les résultats? Je suis assez perdu ici. Des idées?

12 r regression random-forest prediction count-data

1

Test exact de Fisher et distribution hypergéométrique

Je voulais mieux comprendre le test exact du pêcheur, j'ai donc imaginé l'exemple de jouet suivant, où f et m correspond à l'homme et à la femme, et n et y correspond à la "consommation de soda" comme ceci: > soda_gender f m n 0 5 y 5 0 Évidemment, …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

Un prétraitement est-il nécessaire avant la prédiction à l'aide de FinalModel de RandomForest avec package caret?

J'utilise le package caret pour entraîner un objet randomForest avec 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Après cela, je teste randomForest sur un testSet (nouvelles données) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) La matrice de confusion me montre que le …

12 r random-forest prediction caret

1

Pourquoi Netflix passerait-il de son système de notation à cinq étoiles à un système de j'aime / n'aime pas?

Netflix avait l'habitude de baser ses suggestions sur les évaluations soumises par un utilisateur d'autres films / émissions. Ce système de notation avait cinq étoiles. Désormais, Netflix permet aux utilisateurs d'aimer / détester (pouce levé / pouce baissé) les films / émissions. Ils affirment qu'il est plus facile d'évaluer les …

11 variance predictive-models prediction

1

Intervalle de prédiction = intervalle crédible?

Je me demande si l'intervalle de prédiction et l'intervalle crédible évaluent la même chose. Par exemple, avec une régression linéaire, lorsque vous estimez l'intervalle de prédiction d'une valeur ajustée, vous estimez les limites de l'intervalle dans lequel vous vous attendez à ce que votre valeur tombe. À l'inverse d'un intervalle …

11 bayesian linear-model prediction prediction-interval credible-interval

1

R neuralnet - le calcul donne une réponse constante

J'essaie d'utiliser le neuralnetpackage de R (documentation ici ) pour la prédiction. Voici ce que j'essaie de faire: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = …

11 r neural-networks prediction error

1

Sélection du modèle ABC

Il a été démontré que le choix du modèle ABC utilisant des facteurs de Bayes n'est pas recommandé en raison de la présence d'une erreur provenant de l'utilisation de statistiques sommaires. La conclusion de cet article repose sur l'étude du comportement d'une méthode populaire d'approximation du facteur Bayes (algorithme 2). …

11 bayesian model-selection prediction abc

2

Intervalles de prédiction et de tolérance

J'ai quelques questions sur les intervalles de prédiction et de tolérance. Convenons d'abord de la définition des intervalles de tolérance: on nous donne un niveau de confiance, disons 90%, le pourcentage de la population à capturer, disons 99%, et une taille d'échantillon, disons 20. La distribution de probabilité est connue, …

11 prediction prediction-interval tolerance-interval

1

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne comprends pas, c'est pourquoi te(x1, …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Comment calculer les scores de confiance en régression (avec forêts aléatoires / XGBoost) pour chaque prédiction dans R?

Existe-t-il un moyen d'obtenir un score de confiance (on peut également l'appeler valeur de confiance ou probabilité) pour chaque valeur prédite lors de l'utilisation d'algorithmes comme Random Forests ou Extreme Gradient Boosting (XGBoost)? Supposons que ce score de confiance varie de 0 à 1 et montre à quel point je …

11 r regression random-forest prediction boosting

4

La multicolinéarité est-elle vraiment un problème?

Je travaille sur un projet de modélisation prédictive ces jours-ci: essayer d'apprendre un modèle et faire des prédictions en temps réel sur la base du modèle que j'ai appris hors ligne. J'ai commencé à utiliser la régression de crête récemment, car j'ai lu que la régularisation peut aider à réduire …

11 regression prediction multicollinearity ridge-regression

1

Prédire avec des effets aléatoires dans mgcv gam

Je m'intéresse à la modélisation des prises totales de poisson en utilisant gam en mgcv pour modéliser des effets aléatoires simples pour des navires individuels (qui effectuent des déplacements répétés au fil du temps dans la pêche). J'ai 98 sujets, j'ai donc pensé utiliser gam au lieu de gamm pour …

10 prediction random-effects-model gam mgcv

2

Quelle est la relation entre l'inférence causale et la prédiction?

Quelles sont les relations et les différences entre l'inférence causale et la prédiction (à la fois la classification et la régression)? Dans le contexte de prédiction, nous avons les variables prédicteur / entrée et les variables réponse / sortie. Est-ce à dire qu'il existe une relation causale entre les variables …

10 prediction causality definition

Questions marquées «prediction»