Le binning signifie regrouper une variable continue en catégories discrètes. Il est particulièrement utilisé en référence aux histogrammes, mais pourrait également être utilisé plus généralement dans le sens de grossissement.
Supposons que je veuille voir si mes données sont exponentielles en fonction d'un histogramme (c'est-à-dire asymétriques à droite). Selon la façon dont je regroupe ou classe les données, je peux obtenir des histogrammes très différents. Un ensemble d'histogrammes semblera indiquer que les données sont exponentielles. Un autre ensemble fera croire …
Je me demande quel est l'intérêt de prendre une variable prédictive continue et de la diviser (par exemple, en quintiles), avant de l'utiliser dans un modèle. Il me semble que, en regroupant la variable, nous perdons des informations. Est-ce simplement pour que nous puissions modéliser des effets non linéaires? Si …
Dans ce commentaire , Nick Cox a écrit: Le regroupement en classes est une méthode ancienne. Bien que les histogrammes puissent être utiles, les logiciels statistiques modernes facilitent et recommandent d'adapter les distributions aux données brutes. Le regroupement jette simplement les détails cruciaux pour déterminer les distributions plausibles. Le contexte …
Quand devrions-nous discrétiser / classer les variables / fonctionnalités indépendantes et quand ne le devrions-nous pas? Mes tentatives pour répondre à la question: En général, nous ne devons pas bin, car le binning perdra des informations. Le binning augmente en fait le degré de liberté du modèle, il est donc …
Laissant de côté le problème évident de la faible puissance du chi carré dans ce genre de circonstances, imaginez faire un test de qualité khi carré pour une certaine densité avec des paramètres non spécifiés, en regroupant les données. Pour le concret, disons une distribution exponentielle avec une moyenne inconnue …
Disons que j'ai deux distributions que je veux comparer en détail, c'est-à-dire d'une manière qui rend la forme, l'échelle et le décalage facilement visibles. Une bonne façon de procéder consiste à tracer un histogramme pour chaque distribution, à les placer sur la même échelle X et à les empiler les …
Je recherche une méthode de binning optimale (discrétisation) d'une variable continue par rapport à une variable binaire de réponse (cible) donnée et avec un nombre maximum d'intervalles comme paramètre. exemple: J'ai un ensemble d'observations de personnes avec des variables "hauteur" (numéral continu) et "has_back_pains" (binaire). Je veux discrétiser la hauteur …
J'essaie de comprendre le résultat du théorème de Bayes appliqué à l'exemple de la mammographie classique, la torsion de la mammographie étant parfaite. C'est, Incidence du cancer:.01.01.01 Probabilité d'une mammographie positive, étant donné que le patient a un cancer:111 Probabilité d'une mammographie positive, étant donné que le patient n'a pas …
J'essaie de classer intelligemment une collection triée. J'ai une collection de éléments de données. Mais je sais que ces données s'inscrivent dans bacs de taille inégale. Je ne sais pas comment choisir intelligemment les points de terminaison pour ajuster correctement les données. par exemple:mnnnmmm Supposons que j'ai 12 articles dans …
J'ai donc lu quelques articles sur les raisons pour lesquelles le binning doit toujours être évité. Une référence populaire pour cette affirmation est ce lien . L'évasion principale étant que les points de binning (ou points de coupure) sont plutôt arbitraires ainsi que la perte d'informations qui en résulte, et …
Je veux quantifier la relation entre deux variables, A et B, en utilisant des informations mutuelles. Le moyen de le calculer est de regrouper les observations (voir l'exemple de code Python ci-dessous). Cependant, quels facteurs déterminent quel nombre de bacs est raisonnable? J'ai besoin que le calcul soit rapide, donc …
Ceci est juste un exemple que j'ai rencontré plusieurs fois, donc je n'ai pas d'échantillons de données. Exécution d'un modèle de régression linéaire dans R: a.lm = lm(Y ~ x1 + x2) x1est une variable continue. x2est catégorique et a trois valeurs, par exemple "Low", "Medium" et "High". Cependant, la …
J'implémente divers algorithmes pour estimer le meilleur nombre de casiers à utiliser pour les histogrammes. La plupart de ceux que j'implémente sont décrits sur la page Wikipedia "Histogramme" dans la section " Nombre de bacs et largeur " *. Je suis coincé sur un problème avec la formule de Doane: …
En pensant à un histogramme comme une estimation de la fonction de densité, est-il raisonnable de penser à la taille du bac comme un paramètre qui contraint la structure locale de cette fonction? Existe-t-il également une meilleure façon d'articuler ce raisonnement?
Un certain nombre de sources suggèrent qu'il existe de nombreuses conséquences négatives de la discrétisation (catégorisation) des variables continues avant l'analyse statistique (échantillon de références [1] - [4] ci-dessous). Inversement [5] suggère que certaines techniques d'apprentissage automatique sont connues pour produire de meilleurs résultats lorsque les variables continues sont discrétisées …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.