Réponses:
À la liste de chl, qui se concentre sur les erreurs franches de traitement des données, j'ajouterais des vérifications d'erreurs plus subtiles pour répondre aux questions et problèmes suivants (donnés sans ordre particulier et certainement incomplets):
En supposant l'intégrité de la base de données, les données sont-elles raisonnables? Se conforment-ils à peu près aux attentes ou aux modèles conventionnels, ou surprendraient-ils quelqu'un qui connaît des données similaires?
Les données sont-elles cohérentes en interne? Par exemple, si un champ est censé être la somme de deux autres, l'est-il?
Les données sont-elles complètes? Sont-ils ceux qui ont été spécifiés lors de la phase de planification de la collecte des données? Y a-t-il des données supplémentaires qui n'étaient pas prévues? Si oui, pourquoi sont-ils là?
La plupart des analyses modélisent implicitement ou explicitement les données de manière parcimonieuse et incluent la possibilité de variation par rapport à la description générale. Chacun de ces modèles suggère sa propre façon particulière d'identifier les valeurs aberrantes - les données qui s'écartent remarquablement de la description générale. A-t-on tenté d'identifier et de comprendre les valeurs aberrantes à chaque étape de l'exploration et de l'analyse?
Dans de nombreux cas, il est possible pour l'analyste d'introduire des données supplémentaires dans l'analyse à des fins de contrôle qualité et de compréhension. Par exemple, de nombreux ensembles de données dans les sciences naturelles et sociales ainsi que dans les entreprises comprennent (au moins implicitement) des informations de localisation: identificateurs des régions de recensement; noms des pays, états, comtés; codes postaux des clients; etc. Même si - peut-être surtout si - la corrélation spatiale n'est pas un élément de l'EDA ou de la modélisation, l'analyste peut joindre les données aux représentations géographiques des emplacements et les cartographier pour rechercher des modèles et des valeurs aberrantes.
L'une des erreurs les plus insidieuses pouvant se glisser dans une analyse est la perte de données. Lors de l'extraction de champs, de la synthèse des données, du reformatage des ensembles de données, etc., si un ou deux éléments sont supprimés d'un grand ensemble de données, il n'y a souvent rien à signaler. Mais parfois, quelque chose d'important est perdu, au plus grand embarras s'il est jamais découvert. Des vérifications simples - telles que la comparaison des décomptes avant et après et des totaux de données - doivent être effectuées régulièrement pour se prémunir contre de telles choses.
Une autre erreur insidieuse est associée à la conversion de type en informatique numérique. Par exemple, récemment, j'ai dû construire une clé (pour faire correspondre deux fichiers de données) à partir d'un champ à virgule flottante. Le logiciel (Stata) a importé le champ comme un flotteur simple précision dans un fichier mais, pour une raison quelconque, comme un flotteur double précision dans un autre fichier. La plupart du temps, les valeurs correspondaient mais, dans certains cas, en raison d'arrondis différents, elles ne le faisaient pas. En conséquence, certaines données ont été perdues. J'ai attrapé cela uniquement en raison de l'application de (6). En général, il est utile de vérifier la cohérence des types de données de champ: entiers vs flottants, longueurs de chaînes, etc.
Si une feuille de calcul est utilisée à un stade quelconque de l'analyse, attendez-vous au pire. Le problème est que même une frappe erronée peut corrompre invisiblement les données. Lorsque les résultats sont critiques, il vaut la peine de continuer à aller et venir - exporter vers la feuille de calcul, faire l'analyse, importer et comparer systématiquement - pour s'assurer que rien de fâcheux ne s'est produit.
Chaque fois qu'une base de données est mise à jour, il vaut la peine de faire une pause et d'effectuer des comparaisons systématiques et complètes avec l'ancienne pour vous assurer que rien n'a été perdu, modifié ou corrompu dans le processus.
À un niveau supérieur, chaque fois qu'une estimation est effectuée (comme une régression, une ACP, peu importe), il peut être utile de l'exécuter en utilisant une technique différente pour vérifier les sensibilités ou même les erreurs possibles dans le code. Par exemple, suivre une régression OLS par une certaine forme de régression robuste et comparer les coefficients. Pour des résultats importants, il peut être réconfortant d'obtenir les réponses en utilisant deux (ou plus) plates-formes logicielles différentes.
Le meilleur type de «vérification de cohérence» générale que l'on puisse effectuer est peut-être de tout représenter graphiquement, tôt et souvent.
Je suppose que cela a à voir avec une certaine forme de contrôle de qualité sur l'intégrité des données , et plus précisément que vous vérifiez régulièrement que votre base de données de travail n'est pas corrompue (en raison d'une erreur lors du transfert, de la copie ou après une mise à jour ou un contrôle d' intégrité ). Cela peut également signifier de s'assurer que vos calculs intermédiaires sont revérifiés (manuellement ou par le biais de code ou de macros supplémentaires dans votre logiciel statistique).
Vous trouverez d'autres informations ici: le guide de référence ICH E6 (R1) sur les lignes directrices pour les bonnes pratiques cliniques de l'EMEA, les lignes directrices sur les bonnes pratiques de laboratoire clinique ou la boîte à outils du chercheur pour les études de recherche clinique .
ajouter aux autres bons points
Lorsque j'utilise Excel, je génère toujours un numéro de cas comme première colonne pour chaque ligne, il est ensuite copié dans la dernière colonne. Excel semble assez content de trier seulement quelques colonnes à la fois, ce qui provoque le chaos si vous ne faites pas attention à toutes les sélectionner. Vous ne savez peut-être même pas que cela s'est produit. Pouvoir vérifier que les numéros de cas concordent dans les première et dernière colonnes d'une ligne est une précaution utile.
Je passe toujours en revue les valeurs aberrantes.
La double saisie de données par des personnes distinctes est recommandée pour les travaux critiques.
Lors de la saisie de données à partir de documents papier, il est judicieux d'utiliser un identifiant de référence pour pouvoir se référer au document et à la ligne exacts à partir desquels l'entrée est dérivée, la numérotation des formulaires de saisie de données y contribue.
Modifier - Un autre élément - Je sais que la modification des feuilles de calcul est lourde de problèmes, mais il est beaucoup plus facile de nettoyer la saisie de données avec eux. Cependant, je garde également la version originale non éditée, afin que toute modification puisse être vérifiée ou, dans le pire des cas, restaurée.