Je connais quelqu'un qui travaille sur un projet qui implique l'ingestion de fichiers de données sans tenir compte des colonnes ou des types de données. La tâche consiste à prendre un fichier avec un nombre quelconque de colonnes et divers types de données et à produire des statistiques récapitulatives sur les données numériques.
Cependant, il ne sait pas comment procéder pour attribuer dynamiquement des types de données à certaines données numériques. Par exemple:
CITY
Albuquerque
Boston
Chicago
Ce ne sont évidemment pas des données numériques et seront stockées sous forme de texte. cependant,
ZIP
80221
60653
25525
ne sont pas clairement marqués comme catégoriques. Son logiciel lui attribuerait le code postal sous forme de statistiques résumées numériques et de sortie, ce qui n'a aucun sens pour ce type de données.
Quelques idées que nous avions:
- Si une colonne est composée de nombres entiers, étiquetez-la comme catégorielle. Cela ne fonctionnerait clairement pas, mais c'était une idée.
- Si une colonne a moins de n valeurs uniques et est numérique, étiquetez-la catégoriquement. Cela pourrait être plus proche, mais il pourrait toujours y avoir des problèmes avec les données numériques qui passent.
- Conservez une liste de données numériques courantes qui devraient être catégoriques et comparez les en-têtes de colonne à cette liste pour les correspondances. Par exemple, tout ce qui contient "ZIP" serait catégorique.
Mon instinct me dit qu'il n'y a aucun moyen d'attribuer avec précision des données numériques catégorielles ou numériques, mais j'espérais une suggestion. Toute idée que vous avez est grandement appréciée.