Les types de données (nominaux / ordinaux / intervalle / ratio) devraient-ils vraiment être considérés comme des types de variables?


10

Donc, par exemple, voici les définitions que j'obtiens des manuels standard

Variable - caractéristique de la population ou de l'échantillon. ex. Prix ​​d'un stock ou d'une note sur un test

Données - valeurs réelles observées

Donc, pour un rapport à deux colonnes [Nom | Revenu] les noms des colonnes seraient les variables et les valeurs réelles observées {dave | 100K}, {jim | 200K} seraient les données

Donc, si je dis que la colonne [Nom] est une donnée nominale et que [le revenu] est une donnée de ratio, ne serais-je pas plus précis en la décrivant comme un type de variable au lieu d'un type de données comme le font la plupart des manuels? Je comprends que cela pourrait être de la sémantique, et c'est bien, c'est tout ce qu'il y a aussi. Mais je crains de manquer quelque chose ici.


Ne me semble pas être une différence significative; Je considérerais l'une ou l'autre formulation acceptable, personnellement. La définition de "variable" semble cependant un peu décalée.
Nick Stauner

2
@ Nick, je crois que si nous traduisons la "caractéristique" familière en "fonction à valeur réelle" mathématique, nous obtenons une partie de la définition d'une variable aléatoire. (La partie manquante, bien sûr, est la mesurabilité par rapport à un champ sigma sur la population.) Normalement, cependant, nous traduirions "caractéristique d'un échantillon" dans le terme statistique statistique : c'est peut-être ce que vous faites référence comme étant un "Peu éteint." Avec ces traductions, les variables n'ont pas du tout de "types" au sens de Stevens (nous ne pouvons distinguer que les distributions discrètes des distributions continues ) - mais certaines données le peuvent.
whuber

Réponses:


16

La typologie d'échelle de Stevens n'est pas nécessairement une caractéristique inhérente des variables, ni même des données elles-mêmes, mais de la façon dont nous traitons l'information - de ce que nous utilisons pour signifier .

Dans certaines circonstances, exactement la même valeur peut être considérée comme un rapport, un intervalle, un ordinal ou un nominal, selon ce que nous en faisons - c'est une question de sens que nous donnons aux valeurs, qui peut changer d'une analyse à l'autre. La typologie de Stevens a une certaine valeur, mais elle ne doit pas être trop normative à ce sujet.

Cette question de l'importance de l'échelle en tant que signification remonte au moins à Lord (1953), qui a offert un exemple où il y avait à la fois des interprétations nominales et par intervalles du même ensemble de nombres.

Ce point a été encore plus clairement souligné par Velleman et Wilkinson (1993), qui offrent un exemple de personnes recevant des billets numérotés consécutifs à l'entrée d'une réception avec un prix attribué à l'un des billets; selon l'utilisation faite des numéros sur les tickets, ils ont des interprétations sur les quatre échelles.

Ainsi, par exemple, "ai-je gagné?" est une question traitant le numéro comme nominal, alors que "suis-je arrivé trop tôt pour obtenir le billet gagnant?" est une question qui la traite comme ordinale; d'autre part (et je ne pense pas que celui-ci soit dans le journal) en utilisant 5 numéros de billets aléatoires afin d'estimer le nombre de personnes dans la salle les traiterait comme un rapport (par exemple, s'il y avait 4 numéros tirés au hasard qui ont obtenu prix de consolation, vous auriez au total 5 nombres aléatoires à partir desquels estimer la fréquentation totale).

Ils soutiennent que "une bonne analyse des données ne suppose pas de types de données", "les catégories de Stevens ne décrivent pas les attributs fixes des données", "les catégories de Stevens sont insuffisantes pour décrire les échelles de données" et "les procédures statistiques ne peuvent pas être classées selon les critères de Stevens" (en effet chaque énoncé est également un titre de section).

Des critiques ont également été formulées à plusieurs endroits par Tukey (par exemple dans le chapitre 5 du livre de 1977 de Mosteller et Tukey, Analyse et régression des données ); Mosteller et Tukey ont proposé une typologie - noms , grades (étiquettes ordonnées), rangs (à partir de 1, qui peut représenter le plus grand ou le plus petit), fractions comptées (délimitées par zéro et un, celles-ci incluent des pourcentages), nombres (non négatifs) entiers), montants (nombres réels non négatifs), soldes (valeurs illimitées, positives ou négatives).

Dans mon propre travail, j'ai vu des situations où de graves problèmes d'analyse ont été causés par des personnes qui ne comprenaient pas la grande différence entre les variables relatives aux niveaux (parfois appelées variables `` stock '') et les flux - un exemple simple de ces types est la différence dans les types d'analyse appropriés pour les quantités d'eau réellement dans un réservoir de stockage dans chacune d'une séquence de périodes, et la quantité d'eau qui y coule. Il s'agirait (dans certains de ces cas) de sous-catégories du type « montants » de Mosteller et Tukey (et dans ces mêmes cas, les deux variables de rapport dans le schéma de Stevens), indiquant que les problèmes de typologie peuvent être assez subtils, mais peut encore avoir un impact critique sur les analyses appropriées.

PFVelleman et L.Wilkinson (1993),
«Les typologies nominale, ordinale, d'intervalle et de rapport sont trompeuses»,
The American Statistician , vol. 47 n ° 1 pp.65-72

(une version de travail semble être disponible sur la deuxième page Web des auteurs ici )

Lord, F. (1953),
«Sur le traitement statistique des chiffres du football»,
American Psychologist , 8 , pp.750-751

(L'année de cet article est donnée à tort dans les références de la version de l'article de Velleman et Wilkinson à laquelle j'ai lié, mais correctement référencée dans le corps de l'article)


Merci. Réponse très complète. Je pensais dans ce sens, mais lorsque je fais des recherches à ce sujet plusieurs fois, elles donnent l'impression que c'est concret et qu'un consensus a été atteint. Voilà pourquoi je me suis retrouvé ici.
Utilisateur 42

La typologie de Stevens a été débattue et contestée depuis sa première publication. C'est un cadre parfois utile, pas un théorème.
Glen_b -Reinstate Monica

Y a-t-il un "nouveau favori" à part Stevens et Mosteller? Dans l'exemple des niveaux / flux, si je vous comprends bien, les deux ont le même type, mais doivent être traités différemment? Pouvez-vous expliquer cette différence? Et comment, par exemple, la transformation logarithmique d'une valeur s'intégrerait-elle dans cette typologie? Merci.
Erich Schubert

1. Je ne connais aucune tentative récente d'en faire - et je pense qu'elles ne sont pas nécessairement utiles car elles ont tendance à inciter les gens à faire des analyses moins appropriées (voir l'article de Lord pour un exemple de jouet mais les conséquences pour les analyses sont très réel - ces listes d'analyses par type ne provoquent pas une fin de terrible analyse statistique, tout en supprimant de vastes pans de statistiques de la possibilité de les prendre en compte dans des situations appropriées). .. ctd
Glen_b -Reinstate Monica

ctd ... 2. Un exemple de la façon dont les niveaux et les flux sont assez différents: Notez que si vous regardez le niveau chaque jour, le niveau d'aujourd'hui serait le niveau précédent plus le flux entrant ou sortant (ou la somme des deux) , si les deux sont possibles). Les mesures de niveau sont donc nécessairement dépendantes, souvent très fortement. Cela n'a aucun sens de les traiter comme s'ils étaient indépendants - pourtant je vois des gens le faire tout le temps. 3. Je ne sais pas exactement ce que vous demandez avec le journal. Pouvez-vous être plus explicite à ce sujet? Quelle typologie (notez que j'en mentionne plusieurs)?
Glen_b -Reinstate Monica

1

Le type des données est lié mais non identique au type de la variable. Dans la plupart des cas, ce sont les mêmes, mais ce n'est pas obligatoire.

Par exemple, si vous collectez N échantillons à partir d'une distribution normale. On pourrait penser que ce sont des données numériques (rapport ou échelle). Mais je peux aussi dire que c'est une variable catégorielle avec N catégories différentes, avec une fréquence de 1 pour chaque catégorie. Cela a l'air stupide mais c'est aussi une variable valide.


Cela semble un peu en désaccord avec Stevens (qui est crédité de la formulation de cette typologie), qui a écrit "le vrai problème est le sens de la mesure." Bien que vous puissiez toujours choisir de traiter ces données comme nominales, cela ne les rend pas nominales selon l'estimation de Stevens. Son article est disponible sur gaius.fpce.uc.pt/niips/novoplano/mip1/mip1_201314/scales/… .
whuber
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.