Ok, juste avertissement - c'est une question philosophique qui n'implique aucun chiffre. J'ai beaucoup réfléchi à la façon dont les erreurs se glissent dans les ensembles de données au fil du temps et à la façon dont les analystes devraient les traiter - ou si cela devrait vraiment avoir une importance?
Pour le contexte, je fais l'analyse sur une étude à long terme qui implique de nombreux ensembles de données collectées par probablement 25 personnes sur 7 à 8 ans - personne n'a jamais rassemblé toutes les données dans une structure cohérente (c'est mon travail). J'ai fait beaucoup de saisie de données (transcription à partir de photocopies de vieux cahiers de laboratoire) et je continue de trouver de petites erreurs de transcription que d'autres personnes ont faites, et aussi de trouver des entrées de données difficiles ou impossibles à lire - principalement parce que l'encre a disparu avec le temps. J'utilise le contexte pour faire de `` meilleures suppositions '' sur ce que les données disent et je laisse les données en évidence si je ne suis pas assez certain. Mais je continue de penser au fait que chaque fois que des données sont copiées, la fréquence des erreurs augmentera inévitablement jusqu'à ce que les données d'origine soient complètement perdues.
Donc, cela m'amène à une réflexion: en plus des erreurs d'instrument / mesure et des erreurs d'enregistrement, il y a une composante fondamentale `` erreur de gestion des données '' qui augmentera avec le temps et avec plus de traitement des données (note latérale: c'est probablement juste une autre façon d'énoncer la 2ème loi de la thermodynamique, non? L'entropie des données augmentera toujours). Par conséquent, je me demande s'il devrait y avoir une sorte de «correction» introduite pour tenir compte du cycle de vie des ensembles de données (quelque chose qui ressemble à une correction de Bonferroni)? En d'autres termes, devrions-nous supposer que les ensembles de données plus anciens ou plus copiés sont moins précis et, dans l'affirmative, devrions-nous ajuster les résultats en conséquence?
Mais alors, mon autre pensée est que les erreurs font partie intégrante de la collecte et du traitement des données, et puisque tous les tests statistiques ont été développés avec des données du monde réel, peut-être que ces sources d'erreur sont déjà `` intégrées '' à l'analyse?
En outre, un autre point qui mérite d'être mentionné est que, puisque les erreurs de données sont aléatoires, elles sont beaucoup plus susceptibles de réduire la force d'une constatation que de l'améliorer - en d'autres termes, les erreurs de traitement des données conduiraient à des erreurs de type 2, pas à des erreurs de type 1 . Donc, dans de nombreux contextes, si vous utilisiez des données anciennes / douteuses et que vous trouviez toujours un effet, cela augmenterait votre confiance que l'effet est réel (car il était suffisamment fort pour survivre à l'ajout d'une erreur aléatoire à l'ensemble de données). Donc pour cette raison, peut-être que la «correction» devrait aller dans l'autre sens (augmenter le niveau alpha requis pour une «découverte»), ou tout simplement ne pas nous déranger?
Quoi qu'il en soit, désolé d'être si bavard et obtus, je ne sais pas vraiment comment poser cette question de manière plus concise. Merci de vous occuper de moi.