Les erreurs de traitement des données sont-elles déjà «intégrées» à l'analyse statistique?

Ok, juste avertissement - c'est une question philosophique qui n'implique aucun chiffre. J'ai beaucoup réfléchi à la façon dont les erreurs se glissent dans les ensembles de données au fil du temps et à la façon dont les analystes devraient les traiter - ou si cela devrait vraiment avoir une importance?

Pour le contexte, je fais l'analyse sur une étude à long terme qui implique de nombreux ensembles de données collectées par probablement 25 personnes sur 7 à 8 ans - personne n'a jamais rassemblé toutes les données dans une structure cohérente (c'est mon travail). J'ai fait beaucoup de saisie de données (transcription à partir de photocopies de vieux cahiers de laboratoire) et je continue de trouver de petites erreurs de transcription que d'autres personnes ont faites, et aussi de trouver des entrées de données difficiles ou impossibles à lire - principalement parce que l'encre a disparu avec le temps. J'utilise le contexte pour faire de `` meilleures suppositions '' sur ce que les données disent et je laisse les données en évidence si je ne suis pas assez certain. Mais je continue de penser au fait que chaque fois que des données sont copiées, la fréquence des erreurs augmentera inévitablement jusqu'à ce que les données d'origine soient complètement perdues.

Donc, cela m'amène à une réflexion: en plus des erreurs d'instrument / mesure et des erreurs d'enregistrement, il y a une composante fondamentale `` erreur de gestion des données '' qui augmentera avec le temps et avec plus de traitement des données (note latérale: c'est probablement juste une autre façon d'énoncer la 2ème loi de la thermodynamique, non? L'entropie des données augmentera toujours). Par conséquent, je me demande s'il devrait y avoir une sorte de «correction» introduite pour tenir compte du cycle de vie des ensembles de données (quelque chose qui ressemble à une correction de Bonferroni)? En d'autres termes, devrions-nous supposer que les ensembles de données plus anciens ou plus copiés sont moins précis et, dans l'affirmative, devrions-nous ajuster les résultats en conséquence?

Mais alors, mon autre pensée est que les erreurs font partie intégrante de la collecte et du traitement des données, et puisque tous les tests statistiques ont été développés avec des données du monde réel, peut-être que ces sources d'erreur sont déjà `` intégrées '' à l'analyse?

En outre, un autre point qui mérite d'être mentionné est que, puisque les erreurs de données sont aléatoires, elles sont beaucoup plus susceptibles de réduire la force d'une constatation que de l'améliorer - en d'autres termes, les erreurs de traitement des données conduiraient à des erreurs de type 2, pas à des erreurs de type 1 . Donc, dans de nombreux contextes, si vous utilisiez des données anciennes / douteuses et que vous trouviez toujours un effet, cela augmenterait votre confiance que l'effet est réel (car il était suffisamment fort pour survivre à l'ajout d'une erreur aléatoire à l'ensemble de données). Donc pour cette raison, peut-être que la «correction» devrait aller dans l'autre sens (augmenter le niveau alpha requis pour une «découverte»), ou tout simplement ne pas nous déranger?

Quoi qu'il en soit, désolé d'être si bavard et obtus, je ne sais pas vraiment comment poser cette question de manière plus concise. Merci de vous occuper de moi.

dataset error

— Jas Max
source

C'est une excellente question (+1). Un point, cependant: il pourrait être une erreur substantielle de traiter la plupart des erreurs de données que vous mentionnez comme "aléatoires". Par exemple, il y a généralement beaucoup plus d'échanges des chiffres "0", "5", "6" et "8" pendant les transcriptions que d'autres chiffres (et certains d'entre eux peuvent être mal interprétés comme "." Et vice versa ). En outre, les modifications apportées aux valeurs de données importantes (telles que les extrêmes) sont souvent rapidement identifiées et corrigées. Bien qu'il y ait certainement un élément de chance à ces processus de corruption de données, les caractériser correctement peut être un problème important.

— whuber

Pourquoi ne traitez-vous pas les erreurs de traitement des données comme des erreurs de mesure et les traitez-vous en conséquence? Si pour mesurer le nombre de coureurs de parc d'attractions, je dois déployer 20 personnes pour regarder les portes, alors je peux considérer cette équipe de 20 personnes comme un appareil de mesure en quelque sorte

— Aksakal

@whuber, il est toujours aléatoire de mélanger 8 et 5, bien qu'il puisse ne pas avoir la même probabilité que de mélanger 5 et 7.

— Aksakal

@whuber, c'est un point fascinant (fréquence non égale de certains types d'erreurs de transcription) auquel je n'avais pas pensé. Pouvez-vous me diriger vers des sources pour en savoir plus à ce sujet? Je me demande si un test de qualité des données pourrait être développé, basé sur la fréquence des chiffres? J'ai entendu parler de tests similaires pour les données frauduleuses / truquées basées sur la fréquence des chiffres, donc j'imagine que quelque chose de similaire serait possible si les tendances que vous mentionnez sont cohérentes.

— Jas Max

@whuber, encore une pensée. Vous mentionnez que 0, 5, 6, 8 sont souvent confus - parce qu'ils se ressemblent? Cela me fait réaliser que différentes sources d'erreur auraient des erreurs de substitution caractéristiques - par exemple, si vous entendiez les données (enregistrant ce que quelqu'un a dit), alors je pense que 5 et 9 seraient probablement plus fréquemment confondus. Si la source d'erreur était l'entropie (décoloration de l'encre ou déplacement des électrons), je pense que la substitution serait plus aléatoire, mais peut-être aussi unique. Si ces modèles se maintenaient, vous pourriez peut-être rechercher les sources d'erreur dans les grands ensembles de données, en fonction de la fréquence des chiffres.

— Jas Max

J'appuie la suggestion de @Aksakal: si une erreur de mesure est considérée par l'analyste comme potentiellement importante, elle peut et doit être modélisée explicitement dans le cadre du processus de génération de données.

Je vois plusieurs considérations qui plaident contre l'introduction d'un facteur de correction générique basé, par exemple, sur l'âge de l'ensemble de données.

Premièrement, l'âge peut être un très mauvais indicateur du degré de détérioration des données. La technologie de duplication, de compression et de conservation, ainsi que le degré d'effort et de soin nécessaires à la vérification de la transcription correcte, sont apparemment les facteurs importants. Certains textes anciens (par exemple, la Bible) ont été conservés pendant des siècles avec une dégradation apparemment nulle. Votre exemple VHS, bien que légitime, est en fait inhabituel, en ce que chaque événement de duplication introduit toujours une erreur, et il n'y a pas de moyens faciles de rechercher et de corriger les erreurs de transcription - si l' on utilise des technologies bon marché et largement disponibles pour la duplication et le stockage. Je m'attends à ce que l'on diminue considérablement le degré d'erreurs introduites, grâce à des investissements dans des systèmes plus coûteux.

Ce dernier point est plus général: la conservation et la propagation des données sont des activités économiques . La qualité de la transmission dépend fortement des ressources déployées. Ces choix dépendront à leur tour de l'importance perçue des données pour quiconque effectue la duplication et la transmission.

Les considérations économiques s'appliquent également à l'analyste. Il y a toujours plus de facteurs que vous pouvez prendre en compte lors de votre analyse. Dans quelles conditions les erreurs de transcription des données seront-elles suffisamment importantes et suffisamment importantes pour être prises en compte? Mon intuition est: de telles conditions ne sont pas courantes. De plus, si la dégradation potentielle des données est considérée comme suffisamment importante pour en tenir compte dans votre analyse, elle est probablement suffisamment importante pour faire l'effort de modéliser le processus de manière explicite, plutôt que d'insérer une étape générique de «correction».

Enfin, il n'est pas nécessaire de développer un tel facteur de correction générique de novo . Il existe déjà un corpus substantiel de théorie et de pratique statistiques pour analyser des ensembles de données pour lesquels l'erreur de mesure est considérée comme importante.

En somme: c'est une pensée intéressante. Mais je ne pense pas que cela devrait inciter à des changements dans la pratique analytique.

— Arthur Small
source