J'apprécie les autres réponses, mais il me semble qu'un certain fond topologique donnerait une structure bien nécessaire aux réponses.
Définitions
Commençons par établir les définitions des domaines:
La variable catégorielle est une variable dont le domaine contient des éléments, mais il n'y a pas de relation connue entre eux (nous n'avons donc que des catégories). Les exemples dépendent du contexte, mais je dirais que dans le cas général, il est difficile de comparer les jours de la semaine: le lundi est-il avant le dimanche, si oui, qu'en est-il du lundi prochain? Les vêtements sont peut-être un exemple plus facile, mais moins utilisé: sans fournir un contexte qui donnerait un sens à une commande, il est difficile de dire si les pantalons passent avant les pulls ou vice versa.
La variable ordinale est celle qui a un ordre total défini sur le domaine, c'est-à-dire que pour tous les deux éléments du domaine, nous pouvons dire qu'ils sont identiques ou que l'un est plus grand que l'autre. Une échelle de Likert est un bon exemple de définition d'une variable ordinale. "plutôt d'accord" est certainement plus proche de "fortement d'accord" que de "pas d'accord".
la variable d' intervalle est une, dont le domaine définit les distances entre les éléments (une métrique ), nous permettant ainsi de définir des intervalles.
Exemples de domaine
En tant qu'ensemble le plus courant que nous utilisons, les nombres naturels et réels ont un ordre total et des mesures standard. C'est pourquoi nous devons être prudents lorsque nous attribuons des numéros à nos catégories. Si nous ne faisons pas attention à ne pas tenir compte de l'ordre et de la distance, nous convertissons pratiquement nos données catégorielles en données d'intervalle. Lorsque l'on utilise un algorithme d'apprentissage automatique sans savoir comment il fonctionne, on risque de faire de telles hypothèses à contrecœur, ce qui pourrait invalider ses propres résultats. Par exemple, les algorithmes d'apprentissage en profondeur les plus populaires fonctionnent avec des nombres réels en profitant de leur intervalle et de leurs propriétés continues. Un autre exemple, pensez aux échelles de Likert à 5 points, et comment l'analyse que nous leur appliquons suppose que la distance entre fortement d'accord et d' accordéquivaut à être en désaccord et ni d'accord ni en désaccord . Difficile de justifier une telle relation.
Un autre ensemble avec lequel nous travaillons souvent est celui des cordes . Il existe un certain nombre de métriques de similitude de chaîne qui sont utiles lorsque vous travaillez avec des chaînes. Cependant, ceux-ci ne sont pas toujours utiles. Par exemple, pour les adresses, John Smith Street et John Smith Road sont assez proches en termes de similitude de chaîne, mais représentent évidemment deux entités différentes qui pourraient être éloignées de plusieurs kilomètres.
Statistiques sommaires
Ok, voyons maintenant comment certaines statistiques récapitulatives s'inscrivent dans ce domaine. Comme les statistiques fonctionnent avec des nombres, ses fonctions sont bien définies sur des intervalles. Mais voyons des exemples pour savoir si / comment nous pourrions les généraliser à des données catégorielles ou ordinales:
- mode - à la fois lorsque vous travaillez avec des données catégorielles et ordinales, nous pouvons dire quel élément est le plus fréquemment utilisé. Nous avons donc ceci. Ensuite, nous pouvons également dériver toutes les autres mesures que @Maddenker énumère dans leur réponse. L'intervalle de confiance de @ gung pourrait également être utile.
- médiane - comme le dit @ peter-flom, tant que vous avez une commande, vous pouvez dériver votre médiane.
- moyenne , mais aussi l'écart type, les centiles, etc. - vous ne les obtenez qu'avec des données d'intervalle, en raison de la nécessité d'une mesure de distance.
Exemple de contextualité des données
À la fin, je tiens à souligner à nouveau que l'ordre et les mesures que vous définissez sur vos données sont très contextuels. Cela devrait être évident maintenant, mais permettez-moi de vous donner un dernier exemple: lorsque vous travaillez avec des emplacements géographiques, nous avons beaucoup de façons différentes de les aborder:
- si nous nous intéressons à la distance qui les sépare, nous pouvons travailler avec leur géolocalisation, ce qui nous donne essentiellement un espace numérique bidimensionnel, donc intervalle.
- si nous sommes intéressés par leur partie de relation, nous pouvons définir un ordre total (par exemple une rue fait partie d'une ville, deux villes sont égales, un continent contient un pays)
- si nous voulons savoir si deux chaînes représentent la même adresse, nous pourrions travailler avec une certaine distance de chaîne qui tolérerait les fautes d'orthographe et les positions de permutation des mots, mais assurez-vous de distinguer les différents termes et noms. Ce n'est pas une chose facile, mais juste pour faire le cas.
- Il existe de nombreux autres cas d'utilisation, que nous rencontrons tous quotidiennement, où rien de tout cela n'a de sens. Dans certains d'entre eux, il n'y a rien de plus à faire que de traiter les adresses comme de simples catégories différentes, dans d'autres, il s'agit d'une modélisation et d'un prétraitement des données très intelligents.