Quelle est la différence entre des données discrètes et des données continues?

63

continuous-data discrete-data

— Albort
source

2

Avez-vous essayé Google en premier? Pour moi, ça donne ça .

— robin girard

Voici une belle vidéo qui répond à votre question. youtube.com/watch?v=MIX3ZpzEOdM

2

Pensez simplement au numérique et à l'analogique. Même chose - des noms différents.

— Pithikos

Je ne sais vraiment pas quelle est la différence entre des données "discrètes" et "continues". Pour certaines raisons, les classes de statistiques d'introduction semblent vraiment prendre plaisir à ce que les élèves mémorisent les règles permettant de distinguer ces deux choses. Autant que j'ai pu comprendre, les différences ne se situent pas dans les données, mais dans la manière dont nous choisissons de les modéliser.

— user795305

1

C'était le meilleur résultat de Google, @robingirard.

— denson

58

Les données discrètes ne peuvent prendre que des valeurs particulières. Il peut y avoir potentiellement un nombre infini de ces valeurs, mais chacune est distincte et il n'y a pas de zone grise entre les deux. Les données discrètes peuvent être numériques - comme le nombre de pommes - mais elles peuvent aussi être catégoriques - comme le rouge ou le bleu, ou le sexe masculin ou féminin, ou bien ou non.

Les données continues ne sont pas limitées à des valeurs séparées définies, mais peuvent occuper n'importe quelle valeur sur une plage continue. Entre deux valeurs de données continues, il peut en exister un nombre infini. Les données continues sont toujours essentiellement numériques.

Il est parfois logique de traiter des données numériques correctement d’un type à l’autre. Par exemple, quelque chose comme la hauteur est continue, mais souvent nous ne nous soucions pas vraiment des différences minimes et regroupons plutôt des hauteurs dans un certain nombre de cases discrètes . Inversement, si nous comptons de grandes quantités d’une entité distincte - des grains de riz, des termites ou des sous dans l’économie -, nous pouvons choisir de ne pas penser à 2 000 006 et 2 000 008 valeurs fondamentalement différentes, mais plutôt à des points proches sur un continuum approximatif.

Il peut aussi parfois être utile de traiter les données numériques comme catégoriques, par exemple: insuffisance pondérale, normale, obèse. Ceci est généralement juste un autre type de binning.

Il est rarement logique de considérer les données catégoriques comme continues.

— talkie-walkie
source

@walktalky en tant que @jeromy fait allusion, du moins en psychologie, à des variables catégorielles telles que les réponses à des questions sont souvent présumées être une représentation d'un trait sous-jacent, de sorte qu'en ce sens, les données catégorielles sont parfois considérées comme continues.

— richiemorrisroe

@richiemorrisroe On pourrait chercher la différence entre les données et le trait putatif, mais vous avez évidemment raison. D'autres points très intéressants ont été soulevés en réponse à cette question complémentaire .

— walkytalky

merci pour le lien, ces réponses sont vraiment très intéressantes.

— richiemorrisroe

> « Il peut y avoir potentiellement un nombre infini de ces valeurs, mais chacun est différent et il n'y a pas de zone grise entre les deux » - il est en fait tout à fait possible d'avoir une distribution discrète avec des valeurs distinctes, et en même temps , pour deux Les valeurs distinctes que vous choisissez ont toujours plus de valeurs entre elles ("zone grise" dans un sens). Ils ne viennent pas très souvent dans la pratique, mais il est tout à fait possible qu’ils se présentent réellement; en effet, je peux penser à deux exemples distincts (s'ils sont liés) qui peuvent facilement survenir.

— Glen_b

donc pour clarifier, même si vous aviez 10 milliards de lignes de données ohlc pour un stock d’actifs, cela resterait-il considéré comme discret? mais alors le prix d'un actif ne peut pas être compris entre 1 et l'infini, comment penser dans ce type de situation?

— PirateApp

19

Les données sont toujours discrètes. Avec un échantillon de nvaleurs sur une variable, le nombre maximal de valeurs distinctes pouvant être prises par la variable est égal à n. Voir cette citation

Tous les espaces d'échantillonnage réels sont discrets et toutes les variables aléatoires observables ont des distributions discrètes. La distribution continue est une construction mathématique, adaptée au traitement mathématique, mais non pratiquement observable. EJG Pitman (1979, p. 1).

Les données sur une variable sont généralement supposées être tirées d'une variable aléatoire. La variable aléatoire est continue sur une plage s'il existe un nombre infini de valeurs possibles que la variable peut prendre entre deux points différents de la plage. Par exemple, la taille, le poids et le temps sont généralement supposés être continus. Bien entendu, toute mesure de ces variables sera précise et en quelque sorte discrète.

Il est utile de faire la distinction entre
les variables discrètes ordonnées (c'est-à-dire ordinales), non ordonnées (c'est-à-dire nominales) et binaires.

Certains manuels d'introduction confondent une variable continue avec une variable numérique. Par exemple, un score sur un jeu d'ordinateur est discret même s'il est numérique.

Certains manuels d'introduction confondent une variable de ratio avec des variables continues. Une variable de comptage est une variable de ratio, mais elle n'est pas continue.

Dans la pratique, une variable est souvent traitée comme continue lorsqu'elle peut prendre un nombre suffisamment grand de valeurs différentes.

Références

Pitman, EJG 1979. Une théorie de base pour l'inférence statistique. Londres: Chapman et Hall. Note: J'ai trouvé la citation dans l'introduction du chapitre 2 de l'ouvrage de Murray Aitkin intitulé Statistical Inference: Une approche bayésienne / vraisemblable intégrée.

— Jeromy Anglim
source

12

Une probabilité, aussi, est une "construction mathématique" et non "directement observable". Cela signifie-t-il que la probabilité n'existe pas? Dans l' ensemble, cette réponse intéressante semble fondée sur une prémisse intenable que les données doivent être caractérisées par les valeurs qu'ils n'ont plutôt que par les valeurs d' un modèle mathématique leur permet d'avoir. Le dernier est la caractéristique cruciale, pas le premier. Tout cela suggère que ce qui compte dans la distinction continue / discrète est la manière dont nous pensons aux données (c'est-à-dire comment nous les modélisons).

— whuber

3

Il existe une petite fable intelligente illustrant le propos de @ whuber: Lord (1953), "Sur le traitement statistique des chiffres du football", American Psychologist , 8 , pages 750-51.

— Scortchi - Réintégrer Monica

Merci, @ Scortchi. Les versions Web sont disponibles via une recherche Google scholar . Lord aborde une idée fausse, qui a fait l'objet d'un débat animé il y a 60 ans, sur la mesure dans laquelle la "théorie de la mesure" devrait influencer (voire limiter la portée de) l'analyse statistique. Mon point de vue était différent sur la distinction entre les constructions de modèle et les observations.

— whuber

12

Les températures sont continues. Il peut être 23 degrés, 23,1 degrés, 23,100004 degrés.

Le sexe est discret. Vous ne pouvez être qu'un homme ou une femme (en tout cas, dans la pensée classique). Quelque chose que vous pourriez représenter avec un nombre entier comme 1, 2, etc.

La différence est importante car de nombreux algorithmes d’exploration statistique et de traitement de données peuvent gérer un type mais pas l’autre. Par exemple, dans une régression régulière, le Y doit être continu. Dans la régression logistique, le Y est discret.

— Neil McGuigan
source

5

Y

$Y$

8

Les données discrètes ne peuvent prendre que certaines valeurs.

Exemple: le nombre d'élèves dans une classe (vous ne pouvez pas avoir la moitié d'un élève).

Les données continues sont des données pouvant prendre n'importe quelle valeur (dans une plage)

Exemples:

La taille d'une personne: peut être n'importe quelle valeur (dans la gamme des hauteurs humaines), pas seulement certaines hauteurs fixes,
Temps dans une course: vous pouvez même le mesurer en fractions de seconde,
Le poids d'un chien,
La longueur d'une feuille,
Le poids d'une personne,

— Subrato Mukherjee
source

2

Vous pouvez également nous dire où vous avez copié la réponse collée à partir de: mathsisfun.com/data/data-discrete-continuous.html

— philmcole

Joliment décrit.

— Arsman Ahmad le

0

Dans le cas d'une base de données, nous stockons toujours les données de manière discrète, même si la nature des données est continue. Pourquoi devrais-je souligner la nature des données? Nous devrions prendre la distribution des données qui pourraient nous aider à analyser les données. Si la nature des données est continue, je vous suggère de les utiliser par analyse continue.

Prenons un exemple de continu et discret: MP3. Même le type de "son" est une analogie, s'il est stocké en format numérique. Nous devrions l’analyser toujours par analogie.

— Tony
source

0

D'un côté, d'un point de vue pratique, je suis d'accord avec la réponse de Jeromy Anglim. En fin de compte, nous traitons la plupart du temps avec des variables discrètes - bien qu’elles soient continues d’un point de vue théorique - et cela a un impact réel, par exemple, sur la classification. Rappelez-vous le papier de Strobl indiquant que les forêts aléatoires sont biaisées en faveur de variables à points de coupe multiples (plus grande précision mais nature potentiellement similaire). D'après mon expérience personnelle, les réseaux de neurones probabilistes peuvent également présenter un biais lorsque les variables présentent une précision différente sauf si elles sont du même type (c'est-à-dire, continues). D'un autre côté, d'un point de vue théorique, la classification classique (par exemple, continue, discrète, nominale, etc.) est, à mon humble avis, juste. En conséquence, je pense que le nom de source de l'article de Quinlan décrivant l'algorithme M5, qui est un "régresseur", est un excellent choix. Donc, la définition et les implications de continu vs discret sont pertinentes en fonction de «l'environnement».

Refs:

Quinlan JR (1992). Apprendre avec des classes continues. Dans: La 5ème conférence conjointe australienne sur l'intelligence artificielle. Sydney (Australie), 343–348.

Strobl C., Boulesteix A.-L., Zeileis A. et Hothorn T. (2007). Biais dans les mesures aléatoires d'importance variable de la forêt: illustrations, sources et solution. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25

— Rafa_Mas
source

-1

Les données discrètes prennent des valeurs particulières, tandis que les données continues ne se limitent pas à des valeurs séparées.

Les données discrètes sont distinctes et il n'y a pas de zone grise entre celles-ci, alors que les données continues occupent n'importe quelle valeur sur une valeur de données continue.

— Ahmad Ibraheem
source

-2

Données discrètes Elles peuvent prendre des valeurs particulières. Elles sont numériques.

— manuella
source

Bienvenue sur CV! Merci d'avoir répondu, mais s'il vous plaît, prenez le temps de regarder les réponses précédentes et de considérer si vous ajoutez quelque chose d'utile.

— Scortchi

-3

Les données discrètes ne peuvent prendre que des valeurs entières, alors que les données continues peuvent prendre n'importe quelle valeur. Par exemple, le nombre de patients cancéreux traités par un hôpital chaque année est discret mais votre poids est continu. Certaines données sont continues mais mesurées de manière discrète, par exemple votre âge. Il est courant de rapporter votre âge à 31 ans.

— Graham Cookson
source

11

Les données peuvent être discrètes sans être limitées à des entiers. Ou des chiffres, d'ailleurs. Il est toujours possible de représenter des données discrètes avec des entiers, mais cela ne signifie pas que les données ne peuvent prendre que de telles valeurs.

— walkytalky

-4

Les données discrètes parlent particulièrement des valeurs finies et les données continues des valeurs ifinites .....

— Md.Shahid
source

2

Vous souhaitez élaborer?

— Chl