Ces typologies peuvent facilement confondre autant qu'elles expliquent.
Par exemple, les données binaires, tel qu'introduit dans de nombreux textes ou cours d'introduction, certainement de qualité qualitative: oui ou non, survécu ou mort, présent ou absent, homme ou femme, peu importe. Mais marquez les deux possibilités 1 ou 0 et tout est alors parfaitement quantitatif. Une telle notation est à la base de toutes sortes d'analyses: la proportion de femmes n'est que la moyenne de plusieurs 0 pour les hommes et de 1 pour les femmes. Si je rencontre 7 femmes et 3 hommes, je peux simplement faire la moyenne de 1, 1, 1, 1, 1, 1, 1, 0, 0, 0 pour obtenir la proportion 0,7. Avec les réponses binaires, vous avez alors une grande voie ouverte pour la régression logit et probit, et ainsi de suite, qui se concentre sur la variation de la proportion, de la fraction ou de la probabilité survécue, ou quelque chose de similaire, avec quoi que ce soit d'autre qui le contrôle ou l'influence. Personne ne doit s'inquiéter du fait que le codage est arbitraire. La proportion d'hommes est juste 1 moins la proportion de femmes,
Presque la même chose est vraie lorsque des données nominales ou ordinales sont prises en compte, car toute analyse de ces données dépend du premier comptage du nombre de chaque catégorie et ensuite vous pouvez être aussi quantitatif que vous le souhaitez. Les camemberts et les graphiques à barres, tels qu'ils ont été rencontrés pour la première fois au cours des premières années, le montrent, il est donc surprenant de savoir combien de comptes manquent à cela dans les explications.
Autrement dit, vous pouvez classer les données brutes ou originales comme déclarées pour la première fois et comme apparaissant dans, par exemple, la cellule d'un tableur ou d'une base de données. Mais sa forme originale n'est pas immuable. Imaginez quelque chose de frappant comme une mort de perplexité en lisant trop de manuels superficiels. Cela peut être écrit sur un certificat, mais l'analyse statistique ne s'arrête jamais là. Il y a une agrégation des dénombrements (combien de ces décès dans une région et une période de temps), une réduction des taux (combien par rapport à la population à risque), etc.
Ainsi, la façon dont les données sont d'abord encodées empêche rarement leur utilisation par d'autres moyens et leur transformation sous d'autres formes. L'étymologie des données est ici révélatrice: en traduisant littéralement le latin original, elles vous sont données , mais il n'y a pas de règle interdisant de les convertir sous de nombreuses autres formes.