Il y a des choses de base que vous pouvez faire avec n'importe quel ensemble de données:
- Valider les valeurs (tolérance de longueur de chaîne, type de données, masques de mise en forme, présence de champ obligatoire, etc.)
- Exactitude de la plage (ces données apparemment correctes correspondent-elles aux plages de valeurs attendues)
- Traitement préliminaire (si j'essaie d'analyser ces données, puis-je effectuer les bases sans rencontrer d'erreurs)
- Rapports préliminaires (exécutez un rapport sur un ensemble de données et assurez-vous qu'il réussit un test d'intégrité)
- Définir null vs vide vs zero vs faux pour une colonne donnée de données
- Identifier les données qui ne sont pas à leur place (valeurs numériques radicalement différentes des autres valeurs d'un ensemble de données, valeurs de chaîne qui semblent être mal orthographiées, etc.)
- Éliminer ou corriger des données manifestement erronées
Comprendre les données pour identifier les erreurs est un jeu de balle complètement différent, et c'est très important.
Par exemple, vous pouvez avoir une règle qui dit qu'un numéro de série doit être présent dans un ensemble de données donné et que le numéro de série doit être alphanumérique avec une longueur de chaîne maximale de 255 et une longueur de chaîne minimale de 5.
En regardant les données, vous pouvez trouver une valeur de numéro de série particulière qui "PLEASE ENTER SERIAL"
est parfaitement valide, mais erronée.
C'est un peu évident, mais disons que vous traitez les données sur les stocks et que vous aviez une fourchette de prix pour 1000 actions qui était inférieure à un dollar. Beaucoup de gens ne sauraient pas qu'un cours boursier si bas est invalide sur certains échanges et parfaitement valable sur d'autres. Vous avez besoin de connaissances sur vos données pour comprendre si ce que vous voyez est problématique ou non.
Dans le monde réel, vous n'avez pas toujours le luxe de comprendre intimement vos données.
La façon dont j'évite les problèmes consiste à tirer parti des gens qui m'entourent. Pour les petits ensembles de données, je peux demander à quelqu'un d'examiner les données dans leur intégralité. Pour les plus grands, il est plus approprié de tirer un ensemble d'échantillons aléatoires et de demander à quelqu'un de faire un contrôle de santé mentale sur les données.
De plus, il est impératif de remettre en question la source des données et la fiabilité de cette source de données. J'ai souvent plusieurs sources de données conflictuelles et nous créons des règles pour déterminer la "source de vérité". Parfois, un ensemble de données contient d'excellentes données dans un aspect donné, mais d'autres ensembles de données sont plus solides dans d'autres domaines.
Les données saisies manuellement sont généralement ce qui me préoccupe le plus, mais dans certains cas, elles sont plus fortes que tout ce qui peut être acquis via l'automatisation.