Quelle est la différence entre des données discrètes et des données continues?
Quelle est la différence entre des données discrètes et des données continues?
Réponses:
Les données discrètes ne peuvent prendre que des valeurs particulières. Il peut y avoir potentiellement un nombre infini de ces valeurs, mais chacune est distincte et il n'y a pas de zone grise entre les deux. Les données discrètes peuvent être numériques - comme le nombre de pommes - mais elles peuvent aussi être catégoriques - comme le rouge ou le bleu, ou le sexe masculin ou féminin, ou bien ou non.
Les données continues ne sont pas limitées à des valeurs séparées définies, mais peuvent occuper n'importe quelle valeur sur une plage continue. Entre deux valeurs de données continues, il peut en exister un nombre infini. Les données continues sont toujours essentiellement numériques.
Il est parfois logique de traiter des données numériques correctement d’un type à l’autre. Par exemple, quelque chose comme la hauteur est continue, mais souvent nous ne nous soucions pas vraiment des différences minimes et regroupons plutôt des hauteurs dans un certain nombre de cases discrètes . Inversement, si nous comptons de grandes quantités d’une entité distincte - des grains de riz, des termites ou des sous dans l’économie -, nous pouvons choisir de ne pas penser à 2 000 006 et 2 000 008 valeurs fondamentalement différentes, mais plutôt à des points proches sur un continuum approximatif.
Il peut aussi parfois être utile de traiter les données numériques comme catégoriques, par exemple: insuffisance pondérale, normale, obèse. Ceci est généralement juste un autre type de binning.
Il est rarement logique de considérer les données catégoriques comme continues.
Les données sont toujours discrètes. Avec un échantillon de n
valeurs sur une variable, le nombre maximal de valeurs distinctes pouvant être prises par la variable est égal à n
. Voir cette citation
Tous les espaces d'échantillonnage réels sont discrets et toutes les variables aléatoires observables ont des distributions discrètes. La distribution continue est une construction mathématique, adaptée au traitement mathématique, mais non pratiquement observable. EJG Pitman (1979, p. 1).
Les données sur une variable sont généralement supposées être tirées d'une variable aléatoire. La variable aléatoire est continue sur une plage s'il existe un nombre infini de valeurs possibles que la variable peut prendre entre deux points différents de la plage. Par exemple, la taille, le poids et le temps sont généralement supposés être continus. Bien entendu, toute mesure de ces variables sera précise et en quelque sorte discrète.
Il est utile de faire la distinction entre
les variables discrètes ordonnées (c'est-à-dire ordinales), non ordonnées (c'est-à-dire nominales) et binaires.
Certains manuels d'introduction confondent une variable continue avec une variable numérique. Par exemple, un score sur un jeu d'ordinateur est discret même s'il est numérique.
Certains manuels d'introduction confondent une variable de ratio avec des variables continues. Une variable de comptage est une variable de ratio, mais elle n'est pas continue.
Dans la pratique, une variable est souvent traitée comme continue lorsqu'elle peut prendre un nombre suffisamment grand de valeurs différentes.
Les températures sont continues. Il peut être 23 degrés, 23,1 degrés, 23,100004 degrés.
Le sexe est discret. Vous ne pouvez être qu'un homme ou une femme (en tout cas, dans la pensée classique). Quelque chose que vous pourriez représenter avec un nombre entier comme 1, 2, etc.
La différence est importante car de nombreux algorithmes d’exploration statistique et de traitement de données peuvent gérer un type mais pas l’autre. Par exemple, dans une régression régulière, le Y doit être continu. Dans la régression logistique, le Y est discret.
Les données discrètes ne peuvent prendre que certaines valeurs.
Exemple: le nombre d'élèves dans une classe (vous ne pouvez pas avoir la moitié d'un élève).
Les données continues sont des données pouvant prendre n'importe quelle valeur (dans une plage)
Exemples:
Dans le cas d'une base de données, nous stockons toujours les données de manière discrète, même si la nature des données est continue. Pourquoi devrais-je souligner la nature des données? Nous devrions prendre la distribution des données qui pourraient nous aider à analyser les données. Si la nature des données est continue, je vous suggère de les utiliser par analyse continue.
Prenons un exemple de continu et discret: MP3. Même le type de "son" est une analogie, s'il est stocké en format numérique. Nous devrions l’analyser toujours par analogie.
D'un côté, d'un point de vue pratique, je suis d'accord avec la réponse de Jeromy Anglim. En fin de compte, nous traitons la plupart du temps avec des variables discrètes - bien qu’elles soient continues d’un point de vue théorique - et cela a un impact réel, par exemple, sur la classification. Rappelez-vous le papier de Strobl indiquant que les forêts aléatoires sont biaisées en faveur de variables à points de coupe multiples (plus grande précision mais nature potentiellement similaire). D'après mon expérience personnelle, les réseaux de neurones probabilistes peuvent également présenter un biais lorsque les variables présentent une précision différente sauf si elles sont du même type (c'est-à-dire, continues). D'un autre côté, d'un point de vue théorique, la classification classique (par exemple, continue, discrète, nominale, etc.) est, à mon humble avis, juste. En conséquence, je pense que le nom de source de l'article de Quinlan décrivant l'algorithme M5, qui est un "régresseur", est un excellent choix. Donc, la définition et les implications de continu vs discret sont pertinentes en fonction de «l'environnement».
Refs:
Quinlan JR (1992). Apprendre avec des classes continues. Dans: La 5ème conférence conjointe australienne sur l'intelligence artificielle. Sydney (Australie), 343–348.
Strobl C., Boulesteix A.-L., Zeileis A. et Hothorn T. (2007). Biais dans les mesures aléatoires d'importance variable de la forêt: illustrations, sources et solution. BMC Bioinformatics, 8, 25. doi: 10.1186 / 1471-2105-8-25
Les données discrètes prennent des valeurs particulières, tandis que les données continues ne se limitent pas à des valeurs séparées.
Les données discrètes sont distinctes et il n'y a pas de zone grise entre celles-ci, alors que les données continues occupent n'importe quelle valeur sur une valeur de données continue.
Les données discrètes ne peuvent prendre que des valeurs entières, alors que les données continues peuvent prendre n'importe quelle valeur. Par exemple, le nombre de patients cancéreux traités par un hôpital chaque année est discret mais votre poids est continu. Certaines données sont continues mais mesurées de manière discrète, par exemple votre âge. Il est courant de rapporter votre âge à 31 ans.