Questions marquées «binning»

Le binning signifie regrouper une variable continue en catégories discrètes. Il est particulièrement utilisé en référence aux histogrammes, mais pourrait également être utilisé plus généralement dans le sens de grossissement.

4
Évaluation de la distribution approximative des données basée sur un histogramme
Supposons que je veuille voir si mes données sont exponentielles en fonction d'un histogramme (c'est-à-dire asymétriques à droite). Selon la façon dont je regroupe ou classe les données, je peux obtenir des histogrammes très différents. Un ensemble d'histogrammes semblera indiquer que les données sont exponentielles. Un autre ensemble fera croire …


3
Avantages de l'utilisation des tracés QQ sur les histogrammes
Dans ce commentaire , Nick Cox a écrit: Le regroupement en classes est une méthode ancienne. Bien que les histogrammes puissent être utiles, les logiciels statistiques modernes facilitent et recommandent d'adapter les distributions aux données brutes. Le regroupement jette simplement les détails cruciaux pour déterminer les distributions plausibles. Le contexte …

2
Quand devrions-nous discrétiser / classer les variables / caractéristiques indépendantes continues et quand ne le devrions-nous pas?
Quand devrions-nous discrétiser / classer les variables / fonctionnalités indépendantes et quand ne le devrions-nous pas? Mes tentatives pour répondre à la question: En général, nous ne devons pas bin, car le binning perdra des informations. Le binning augmente en fait le degré de liberté du modèle, il est donc …



2
Regroupement optimal par rapport à une variable de réponse donnée
Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …

5
Interprétation du théorème de Bayes appliqué aux résultats positifs de la mammographie
J'essaie de comprendre le résultat du théorème de Bayes appliqué à l'exemple de la mammographie classique, la torsion de la mammographie étant parfaite. C'est, Incidence du cancer:.01.01.01 Probabilité d'une mammographie positive, étant donné que le patient a un cancer:111 Probabilité d'une mammographie positive, étant donné que le patient n'a pas …




1
R régression linéaire variable catégorielle valeur «cachée»
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant, la …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Formule de Doane pour le regroupement d'histogrammes
J'implémente divers algorithmes pour estimer le meilleur nombre de casiers à utiliser pour les histogrammes. La plupart de ceux que j'implémente sont décrits sur la page Wikipedia "Histogramme" dans la section " Nombre de bacs et largeur " *. Je suis coincé sur un problème avec la formule de Doane: …


2
Quelle est la justification d'une discrétisation non supervisée de variables continues?
Un certain nombre de sources suggèrent qu'il existe de nombreuses conséquences négatives de la discrétisation (catégorisation) des variables continues avant l'analyse statistique (échantillon de références [1] - [4] ci-dessous). Inversement [5] suggère que certaines techniques d'apprentissage automatique sont connues pour produire de meilleurs résultats lorsque les variables continues sont discrétisées …

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.