Lorsque je travaille sur des projets d'analyse de données, je stocke souvent des données dans des fichiers de données séparés par des virgules ou des tabulations (CSV, TSV). Alors que les données appartiennent souvent à un système de gestion de base de données dédié. Pour bon nombre de mes demandes, ce serait exagérer.
Je peux modifier des fichiers CSV et TSV dans Excel (ou probablement un autre programme de feuille de calcul). Cela présente des avantages:
- les feuilles de calcul facilitent la saisie des données
Il existe également plusieurs problèmes:
- L'utilisation de fichiers CSV et TSV entraîne un large éventail de messages d'avertissement concernant la perte de diverses fonctionnalités et la façon dont seule la feuille active sera enregistrée, etc. Ainsi, c'est ennuyeux si vous voulez juste ouvrir le fichier et faire un petit changement.
- Il effectue de nombreuses conversions «supposées intelligentes». Par exemple, si vous entrez 12/3, il pensera que vous voulez entrer une date. MISE À JOUR: J'aurais dû mentionner que l'exemple de date n'est qu'un exemple parmi tant d'autres; la plupart des problèmes semblent être liés à une conversion inappropriée. En particulier, les champs de texte qui ressemblent à des nombres ou des dates posent des problèmes.
Alternativement, je pourrais travailler directement avec le fichier texte dans un éditeur de texte standard. Cela garantit que ce que j'entre est ce qui est enregistré. Cependant, c'est une façon très maladroite de saisir des données (les colonnes ne s'alignent pas; il est difficile de saisir des données simplement dans plusieurs cellules, etc.).
Question
- Quelle est la bonne stratégie pour travailler avec des fichiers de données CSV ou TSV? c'est-à-dire, quelle stratégie facilite la saisie et la manipulation des données tout en garantissant que ce que vous saisissez est effectivement interprété correctement?