Dans une question précédente, j'ai posé des questions sur les outils d'édition des fichiers CSV .
Gavin lié à un commentaire sur R Help par Duncan Murdoch suggérant que le format d'échange de données est un moyen plus fiable de stocker des données que CSV.
Pour certaines applications, un système de gestion de base de données dédié est nécessaire. Cependant, pour les projets d'analyse de données à petite échelle, quelque chose de plus léger semble plus approprié.
Tenez compte des critères suivants pour évaluer un format de fichier:
- fiable : les données saisies doivent rester fidèles à ce qui a été saisi; les données doivent s'ouvrir de manière cohérente dans différents logiciels;
- simple : ce serait bien si le format de fichier est facile à comprendre et idéalement lisible avec un simple éditeur de texte; il devrait être facile d'écrire un programme simple pour lire et écrire le format.
- ouvert : le format doit être ouvert
- interopérable : le format de fichier doit être pris en charge par de nombreux systèmes
Je trouve que les formats de valeurs séparés par des tabulations et des virgules échouent sur le critère de fiabilité. Bien que je suppose que je pourrais blâmer les programmes d'importation et d'exportation plutôt que le format de fichier. Je me retrouve souvent à devoir faire de petits ajustements aux options
read.table
afin d'empêcher un personnage étrange de casser le chargement de la trame de données.
Des questions
- Quel format de fichier répond le mieux à ces besoins?
- Le format d'échange de données est-il une meilleure alternative? ou a-t-il ses propres problèmes?
- Y a-t-il un autre format préférable?
- Suis-je en train d'évaluer injustement TSV et CSV? Existe-t-il un ensemble simple de conseils pour travailler avec de tels fichiers qui rendent le format de fichier plus fiable?
write.DIF()
, c'est donc un peu une rue à sens unique, je le crains.