Contexte
Je supervise l'entrée des données de la littérature primaire dans une base de données . Le processus de saisie des données est sujet aux erreurs, en particulier parce que les utilisateurs doivent interpréter la conception expérimentale, extraire les données des graphiques et des tableaux et transformer les résultats en unités normalisées.
Les données sont entrées dans une base de données MySQL via une interface Web. Plus de 10 000 points de données provenant de> 20 variables,> 100 espèces et> 500 citations ont été inclus jusqu'à présent. Je dois effectuer des vérifications de la qualité non seulement des données variables, mais aussi des données contenues dans les tables de recherche, telles que les espèces associées à chaque point de données, l'emplacement de l'étude, etc.
La saisie des données est en cours, donc QA / QC devra être exécuté par intermittence. Les données n'ont pas encore été rendues publiques, mais nous prévoyons de les publier au cours des prochains mois.
Actuellement, mon AQ / CQ comporte trois étapes:
- un deuxième utilisateur vérifie chaque point de données.
- inspecter visuellement l'histogramme de chaque variable pour détecter les valeurs aberrantes.
- les utilisateurs signalent des données douteuses après l'obtention de résultats erronés.
Des questions
- Existe-t-il des directives que je peux utiliser pour développer une procédure AQ / CQ robuste pour cette base de données?
- La première étape prend le plus de temps; puis-je faire quelque chose pour rendre cela plus efficace?