Questions marquées «rpart»

`rpart` est un package R qui fournit un certain nombre de routines liées aux arbres de régression et aux algorithmes de partitionnement récursif. Ce package est fréquemment utilisé pour les problèmes de classification.

3
Qu'est-ce que la déviance? (spécifiquement dans CART / rpart)
Qu'est-ce que la "déviance", comment est-elle calculée et quelles sont ses utilisations dans différents domaines de la statistique? En particulier, je suis personnellement intéressé par ses utilisations dans CART (et sa mise en œuvre dans rpart in R). Je pose cette question car l' article du wiki semble quelque peu …
45 r  cart  rpart  deviance 

4
Comment mesurer / classer «l'importance variable» lors de l'utilisation de CART? (en utilisant spécifiquement {rpart} de R)
Lors de la construction d'un modèle CART (spécifiquement l'arbre de classification) à l'aide de rpart (dans R), il est souvent intéressant de savoir quelle est l'importance des différentes variables introduites dans le modèle. Ainsi, ma question est: Quelles sont les mesures communes existantes pour classer / mesurer l'importance des variables …

2
Choix du paramètre de complexité dans CART
Dans la routine rpart () pour créer des modèles CART, vous spécifiez le paramètre de complexité auquel vous souhaitez tailler votre arbre. J'ai vu deux recommandations différentes pour choisir le paramètre de complexité: Choisissez le paramètre de complexité associé à l'erreur de validation croisée minimale possible. Cette méthode est recommandée …
16 r  cart  rpart 

2
Partitionnement des arbres dans R: party vs. rpart
Cela fait un moment que je n'ai pas regardé le partitionnement des arbres. La dernière fois que j'ai fait ce genre de choses, j'aime faire la fête en R (créé par Hothorn). L'idée de l'inférence conditionnelle via l'échantillonnage est logique pour moi. Mais rpart avait également un attrait. Dans l'application …
15 r  cart  rpart  partitioning 




1
Pourquoi Anova () et drop1 () ont-ils fourni des réponses différentes pour les GLMM?
J'ai un GLMM du formulaire: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Lorsque j'utilise drop1(model, test="Chi"), j'obtiens des résultats différents de ceux que j'utilise à Anova(model, type="III")partir du package de voiture ou summary(model). Ces deux derniers donnent les mêmes réponses. En utilisant un …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 


1
Comment choisir le nombre de scissions dans rpart ()?
Je l' ai utilisé rpart.controlpour minsplit=2, et a obtenu les résultats suivants de la rpart()fonction. Pour éviter de sur-ajuster les données, dois-je utiliser les divisions 3 ou 7? Ne devrais-je pas utiliser le fractionnement 7? S'il vous plaît, faites-moi savoir. Variables réellement utilisées dans la construction des arbres: [1] ct_a …
9 r  cart  rpart 

2
Comment les valeurs de CP (complexité des coûts) sont-elles calculées dans RPART (ou les arbres de décision en général)
D'après ce que je comprends, l'argument cp de la rpartfonction aide à pré-élaguer l'arbre de la même manière que les arguments minsplit ou minbucket. Ce que je ne comprends pas, c'est comment les valeurs CP sont calculées. Par exemple df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE, FALSE, TRUE, FALSE, FALSE)), method="class") mytree<-rpart(y ~ x, …
9 r  cart  rpart 
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.