La proposition comporte de nombreux défauts. Voici peut-être le plus grand.
Supposons que vous collectez des données et que vous voyez ces valeurs:
2 , 3 , 1
6 / trois = 2
Vient ensuite une valeur aberrante:
2 , 3 , 1 , 1000
Vous le remplacez donc par la moyenne:
2 , 3 , 1 , 2
Le numéro suivant est bon:
2 , 3 , 1 , 2 , 7
Maintenant, la moyenne est de 3. Attendez une minute, la moyenne est maintenant de 3, mais nous avons remplacé 1000 par une moyenne de 2, simplement parce que cela s'est produit comme quatrième valeur. Et si nous changeons l'ordre des échantillons?
2 , 3, 1 , 7 , 1000
( 2 + 3 + 1 + 7 ) / 4 = 13 / 4
Le problème est que la fausse donnée que nous substituons à la place de 1000 dépend des autres données. C'est un problème épistémologique si les échantillons sont censés représenter des mesures indépendantes.
nnnnn
Fondamentalement, rogner les résultats qui ne correspondent pas est une chose (et peut être justifié s'il est fait de manière cohérente selon un algorithme, plutôt que selon les changements d'humeur changeants de l'expérimentateur).
La falsification pure et simple de résultats est répréhensible pour des raisons philosophiques, épistémologiques et éthiques.
Il peut y avoir des circonstances atténuantes, qui ont à voir avec la façon dont les résultats sont utilisés. Comme par exemple, disons que cette substitution des valeurs aberrantes par la moyenne actuelle fait partie d'un algorithme informatique intégré, ce qui lui permet de mettre en œuvre un système de contrôle en boucle fermée. (Il échantillonne certaines sorties du système, puis ajuste les entrées afin d'obtenir le contrôle.) Tout est en temps réel, et donc quelque chose doit être fourni pour une période de temps donnée à la place des données manquantes. Si ce fudging aide à surmonter les pépins et assure un bon fonctionnement, alors tout va bien.
Voici un autre exemple, de la téléphonie numérique: PLC (dissimulation de perte de paquets). La merde se produit et les paquets se perdent, mais la communication est en temps réel. Le PLC synthétise de faux morceaux de voix sur la base d'informations récentes sur la hauteur des paquets correctement reçus. Donc, si un locuteur disait la voyelle "aaa" puis qu'un paquet était perdu, le PLC peut remplir le paquet manquant en extrapolant le "aaa" pour la durée de la trame (disons 5 ou 10 millisecondes ou autre). Le "aaa" est tel qu'il ressemble à la voix du locuteur. Ceci est analogue à l'utilisation d'une "moyenne" pour remplacer les valeurs considérées comme mauvaises. C'est une bonne chose; c'est mieux que le son coupé et coupé, et aide à l'intelligibilité.
Si le truquage des données fait partie d'un programme de mentir aux gens pour couvrir un travail défaillant, c'est autre chose.
Nous ne pouvons donc pas y penser indépendamment de l'application: comment les statistiques sont-elles utilisées? Les substitutions conduiront-elles à des conclusions invalides? Y a-t-il des implications éthiques?