Le rôle du "nettoyage des données" est d'identifier quand "nos lois (modèle) ne fonctionnent pas". L'ajustement des valeurs aberrantes ou des points de données anormaux nous permet d'obtenir des «estimations robustes» des paramètres du modèle actuel que nous considérons. Ces «valeurs aberrantes», si elles ne sont pas traitées, permettent une distorsion indésirable dans les paramètres du modèle, car l'estimation est «motivée pour expliquer ces points de données» qui «ne se comportent pas selon notre modèle hypothétique». En d'autres termes, il y a beaucoup de retour sur investissement en termes de somme des carrés expliquée en se concentrant sur les "méchants". Les points identifiés empiriquement qui nécessitent un nettoyage doivent être soigneusement examinés afin de potentiellement développer / suggérer des facteurs de cause qui ne sont pas dans le modèle actuel.
Comment évaluer l'effet d'une intervention dans un État par rapport à un autre en utilisant le taux annuel de létalité?
Faire de la science, c'est rechercher des schémas répétés.
Détecter des anomalies, c'est identifier des valeurs qui ne suivent pas des schémas répétés. Sinon, comment sauriez-vous qu'un point a violé ce modèle? En fait, le processus de croissance, de compréhension, de recherche et d'examen des valeurs aberrantes doit être itératif. Ce n'est pas une nouvelle pensée.
Sir Frances Bacon, écrivant dans Novum Organum il y a environ 400 ans, a déclaré: «Les erreurs de la nature, des sports et des monstres corrigent la compréhension des choses ordinaires et révèlent des formes générales. Car quiconque connaît les voies de la Nature remarquera plus facilement ses déviations; et, d'autre part, quiconque connaît ses écarts décrira plus précisément ses voies. »
Nous changeons nos règles en observant quand les règles actuelles échouent.
Si en effet les valeurs aberrantes identifiées sont toutes des impulsions et ont des effets similaires (taille), nous suggérons ce qui suit (cité d'une autre affiche)
"Une façon" rapide et sale "de le faire dans un cadre de régression consiste à inclure un indicateur des années / périodes épidémiques comme variable régressrice. Cela vous donnera une estimation moyenne de l'effet des épidémies (et suppose implicitement que l'affect est la même chose pour chaque épidémie). Cependant, cette approche ne fonctionne que pour décrire l'effet, car dans la prévision, votre variable de régression est inconnue (vous ne savez pas quelles périodes futures seront épidémiques). "
Ceci, bien sûr, nécessite que les anomalies individuelles (années d'impulsion) aient des effets similaires. S'ils diffèrent, une variable de portemanteau décrite ci-dessus serait incorrecte.