Questions marquées «categorical-data»

Les données catégorielles (également appelées nominales) peuvent prendre un nombre limité de valeurs possibles appelées catégories. Les valeurs catégorielles "étiquettent", elles ne "mesurent" pas. Veuillez utiliser la balise [ordinal-data] pour les types de données discrets mais ordonnés.

6
L’analyse en composantes principales peut-elle être appliquée à des ensembles de données contenant un mélange de variables continues et catégorielles?
J'ai un jeu de données qui contient à la fois des données continues et catégoriques. J'analyse en utilisant PCA et je me demande s'il est acceptable d'inclure les variables catégoriques dans le cadre de l'analyse. D'après ce que j'ai compris, l'ACP ne peut être appliquée qu'à des variables continues. Est-ce …


3
Un exemple: régression LASSO utilisant glmnet pour les résultats binaires
Je commence à me familiariser avec l’utilisation de glmnetavec LASSO Regression, où mon résultat d’intérêt est dichotomique. J'ai créé un petit cadre de données fictif ci-dessous: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


6
Manière raisonnée de regrouper des variables catégoriques à plusieurs niveaux?
Quelles techniques sont disponibles pour regrouper (ou regrouper) plusieurs catégories en un petit nombre, dans le but de les utiliser comme entrée (prédicteur) dans un modèle statistique? Considérons une variable comme étudiant majeur (discipline choisie par un étudiant de premier cycle). Il est non ordonné et catégorique, mais il peut …





5
Corrélations entre variables continues et catégorielles (nominales)
J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.ρρ\rho Lors de mes recherches sur Internet, j’ai …


6
Améliorer la classification avec de nombreuses variables catégorielles
Je travaille sur un ensemble de données comprenant plus de 200 000 échantillons et environ 50 caractéristiques par échantillon: 10 variables continues et les 40 autres valeurs sont des variables catégorielles (pays, langues, domaines scientifiques, etc.). Pour ces variables catégorielles, vous avez par exemple 150 pays différents, 50 langues, 50 …


3


En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.