Questions marquées «many-categories»

Variables catégorielles avec un grand nombre de niveaux et méthodes statistiques pour travailler avec de telles variables (exemple: lasso fusionné).

6
Manière raisonnée de regrouper des variables catégoriques à plusieurs niveaux?
Quelles techniques sont disponibles pour regrouper (ou regrouper) plusieurs catégories en un petit nombre, dans le but de les utiliser comme entrée (prédicteur) dans un modèle statistique? Considérons une variable comme étudiant majeur (discipline choisie par un étudiant de premier cycle). Il est non ordonné et catégorique, mais il peut …

6
Améliorer la classification avec de nombreuses variables catégorielles
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …

6
Problèmes avec les camemberts
Il semble y avoir une discussion croissante sur les camemberts. Les principaux arguments contre cela semblent être: La zone est perçue avec moins de puissance que la longueur. Les graphiques circulaires ont un rapport point-à-pixel de données très faible Cependant, je pense qu'ils peuvent être d'une certaine manière utiles lors …

7
comment représenter la géographie ou le code postal dans un modèle d'apprentissage automatique ou un système de recommandation?
Je construis un modèle et je pense que la situation géographique est susceptible d'être très bonne pour prédire ma variable cible. J'ai le code postal de chacun de mes utilisateurs. Je ne suis pas tout à fait sûr de la meilleure façon d'inclure le code postal comme fonctionnalité de prédiction …


4
La précision de la machine augmentant le gradient diminue à mesure que le nombre d'itérations augmente
J'expérimente l'algorithme de la machine de renforcement de gradient via le caretpackage en R. À l'aide d'un petit ensemble de données d'admission à l'université, j'ai exécuté le code suivant: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

4
Effet fixe vs effet aléatoire lorsque toutes les possibilités sont incluses dans un modèle d'effets mixtes
Dans un modèle à effets mixtes, la recommandation consiste à utiliser un effet fixe pour estimer un paramètre si tous les niveaux possibles sont inclus (par exemple, hommes et femmes). Il est en outre recommandé d'utiliser un effet aléatoire pour tenir compte d'une variable si les niveaux inclus ne sont …



1
Différences entre PROC Mixed et lme / lmer en R - degrés de liberté
Remarque: cette question est une rediffusion, car ma question précédente a dû être supprimée pour des raisons juridiques. En comparant PROC MIXED de SAS avec la fonction lmedu nlmepackage dans R, je suis tombé sur des différences assez confuses. Plus précisément, les degrés de liberté dans les différents tests diffèrent …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 




1
Méthodes pénalisées pour les données catégorielles: combiner les niveaux dans un facteur
Les modèles pénalisés peuvent être utilisés pour estimer les modèles où le nombre de paramètres est égal ou même supérieur à la taille de l'échantillon. Cette situation peut se produire dans les modèles log-linéaires de grandes tables clairsemées de données catégorielles ou de dénombrement. Dans ces paramètres, il est souvent …

1
Encodage de caractéristiques catégorielles à cardinalité élevée (plusieurs catégories) lorsque les fonctionnalités diffèrent considérablement sur la cardinalité
J'ai cherché dans les questions concernant l'encodage catégorique des fonctionnalités, mais je n'ai trouvé aucune discussion sur mon problème. Toutes mes excuses si je l'ai raté. Disons que nous avons un ensemble de données avec des variables binaires et nominales d'importance à peu près égale. La plupart des classificateurs ne …
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.