Questions marquées «cart»

«Arbres de classification et de régression». CART est une technique d'apprentissage automatique populaire, et elle constitue la base de techniques telles que les forêts aléatoires et les implémentations courantes des machines de renforcement de gradient.

1
Arbres de décision: mise à l'échelle variable (fonctionnalité) et normalisation variable (fonctionnalité) (réglage) requises dans quelles implémentations?
Dans de nombreux algorithmes d'apprentissage automatique, la mise à l'échelle des fonctionnalités (aka mise à l'échelle variable, normalisation) est une étape de pré-traitement courante Wikipedia - Mise à l'échelle des fonctionnalités - cette question était proche Question # 41704 - Comment et pourquoi la normalisation et la mise à l'échelle …

1
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
Taille de l'arbre dans le boosting d'arbre dégradé
L'amplification des arbres à gradient comme proposé par Friedman utilise des arbres de décision avec Jdes nœuds terminaux (= feuilles) comme apprenants de base. Il existe un certain nombre de façons de faire pousser un arbre avec exactement des Jnœuds, par exemple, on peut faire pousser l'arbre en premier lieu …
10 r  cart  boosting 

1
R régression linéaire variable catégorielle valeur «cachée»
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant, la …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Étudier les différences entre les populations
Disons que nous avons un échantillon de deux populations: Aet B. Supposons que ces populations sont constituées d'individus et nous choisissons de décrire les individus en termes de caractéristiques. Certaines de ces caractéristiques sont catégoriques (par exemple, conduisent-elles au travail?) Et certaines sont numériques (par exemple, leur hauteur). Appelons ces …

2
Les estimateurs d'arbres sont-ils TOUJOURS biaisés?
Je fais mes devoirs sur les arbres de décision, et l'une des questions auxquelles je dois répondre est "Pourquoi les estimateurs sont-ils construits à partir d'arbres biaisés, et comment l'ensachage aide-t-il à réduire leur variance?". Maintenant, je sais que les modèles surajustés ont tendance à avoir un biais vraiment faible, …
9 cart  bias 



1
Comment choisir le nombre de scissions dans rpart ()?
Je l' ai utilisé rpart.controlpour minsplit=2, et a obtenu les résultats suivants de la rpart()fonction. Pour éviter de sur-ajuster les données, dois-je utiliser les divisions 3 ou 7? Ne devrais-je pas utiliser le fractionnement 7? S'il vous plaît, faites-moi savoir. Variables réellement utilisées dans la construction des arbres: [1] ct_a …
9 r  cart  rpart 

4
La régression basée sur un arbre peut-elle être pire que la régression linéaire ordinaire?
Salut, j'étudie les techniques de régression. Mes données ont 15 fonctionnalités et 60 millions d'exemples (tâche de régression). Lorsque j'ai essayé de nombreuses techniques de régression connues (arbre boosté par gradient, régression d'arbre de décision, AdaBoostRegressor, etc.), la régression linéaire s'est très bien déroulée. Meilleur score parmi ces algorithmes. Quelle …


2
Comment les valeurs de CP (complexité des coûts) sont-elles calculées dans RPART (ou les arbres de décision en général)
D'après ce que je comprends, l'argument cp de la rpartfonction aide à pré-élaguer l'arbre de la même manière que les arguments minsplit ou minbucket. Ce que je ne comprends pas, c'est comment les valeurs CP sont calculées. Par exemple df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, …
9 r  cart  rpart 

1
Puis-je combiner de nombreux arbres améliorant le gradient en utilisant la technique d'ensachage
Basé sur Gradient Boosting Tree vs Random Forest . GBDT et RF utilisant une stratégie différente pour lutter contre le biais et la variance. Ma question est la suivante: puis-je rééchantillonner l'ensemble de données (avec remplacement) pour former plusieurs GBDT et combiner leurs prédictions comme résultat final? C'est équivalent à …


1
Arbre de décision avec variable d'entrée continue
Il est connu que lors de la construction d'un arbre de décision, nous divisons la variable d'entrée de manière exhaustive et trouvons la «meilleure» répartition par approche de test statistique ou approche par fonction d'impureté. Ma question est quand nous utilisons une variable continue comme variable d'entrée (seulement quelques valeurs …
8 cart 

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.