Le nettoyage des données peut-il aggraver les résultats de l'analyse statistique?


17

Une augmentation du nombre de cas et de décès se produit pendant les épidémies (augmentation soudaine du nombre) en raison d'une circulation virale (comme le virus du Nil occidental aux États-Unis en 2002) ou de la diminution de la résistance des personnes ou de la contamination des aliments ou de l'eau ou de l'augmentation du nombre de les moustiques. Ces épidémies se présenteront comme des valeurs aberrantes qui peuvent survenir tous les 1 à 5 ans. En supprimant ces valeurs aberrantes, nous supprimons les preuves d'épidémies qui constituent une partie importante de la prévision et de la compréhension des maladies.

Le nettoyage des données est-il nécessaire pour faire face aux valeurs aberrantes causées par les épidémies?

Est-ce que cela va améliorer les résultats ou aggraver les résultats de l'analyse statistique?

Réponses:


12

Cela dépend en fait du but de votre recherche. À mon avis, il pourrait y en avoir plusieurs:

  1. Vous voulez comprendre quels sont les facteurs typiques qui causent des cas et des décès et qui ne sont pas affectés par les périodes épidémiques et les facteurs qui provoquent les épidémies (vous êtes donc intéressé par les probabilités majeures typiques) - dans ce cas, vous devez évidemment supprimer l'épidémie périodes à partir des données, car elles visent à rechercher les valeurs aberrantes par rapport à ce que vous souhaitez conclure
  2. Vous voudrez peut-être inclure des changements épidémiques dans vos modèles (les modèles de changement de régime, par exemple, tous les bons liens et les suggestions de modèles de la communauté sont les bienvenus ici), car vous voulez connaître la probabilité de survenue de la période épidémique (et aussi combien de temps cela durera), pour tester la stabilité et prévoir - dans ce cas, vous n'excluez pas les périodes épidémiques, mais recherchez des modèles plus compliqués plutôt que d'opter pour l'outil marteau-économétrique ou quelque chose de similaireOLS
  3. Votre objectif principal est de détecter les périodes épidémiques et de les surveiller en temps réel - c'est un domaine spécial en économétrie avec lequel un certain nombre de mes collègues travaillent à l'Université de Vilnius (certainement, vous aimeriez avoir beaucoup d'observations épidémiques pour traiter )

Donc, si votre objectif principal est quelque chose comme 2, l'effacement des données entraînera des conclusions erronées sur les prévisions futures, c'est-à-dire des performances de prévision inexactes. Il est également vrai que le 2e cas ne fournit pas nécessairement de meilleures prévisions, mais vous pourriez au moins tirer des conclusions sur les probabilités des périodes épidémiques et leur durée. Ceci EST d'une importance vitale pour les mathématiciens actuariels, alors peut-être êtes-vous le seul?


Grande et simple réponse. Vous avez une connaissance appréciable à un jeune âge.
DrWho

15

Personnellement, je n'appellerais pas cela "nettoyage des données". Je pense plus au nettoyage des données dans le sens de la modification des données - le nettoyage des incohérences dans l'ensemble de données (par exemple, un enregistrement a signalé l'âge de 1000 ans, ou une personne âgée de 4 ans est monoparentale, etc.).

La présence d'un effet réel dans vos données ne le rend pas "désordonné" (au contraire, la présence d'effets réels le rendrait riche) - même si cela peut rendre votre tâche mathématique plus impliquée. Je suggérerais que les données soient "nettoyées" de cette manière si c'est le seul moyen possible d'obtenir une prédiction. S'il existe un moyen réalisable qui ne jette pas d'informations, utilisez-le.

Il semble que vous puissiez bénéficier d'une sorte d'analyse cyclique, étant donné que vous dites que cet effet se produit périodiquement (un peu comme un «cycle économique»).

De mon point de vue, si vous envisagez de prévoir quelque chose, la suppression d'un effet réel de cette source ne peut qu'aggraver vos prévisions. En effet, vous avez effectivement "jeté" les informations que vous souhaitez prévoir!

L'autre point est qu'il peut être difficile de déterminer quelle proportion d'un ensemble de décès est due à l'épidémie et combien a été causée par les fluctuations ordinaires.

En terminologie statistique, l'épidémie sonne comme ça, de votre point de vue, c'est une "nuisance" pour ce que vous voulez réellement analyser. Vous n'y êtes donc pas particulièrement intéressé, mais vous devez en tenir compte dans votre analyse. Une façon «rapide et sale» de le faire dans un contexte de régression consiste à inclure un indicateur des années / périodes épidémiques comme variable régressive. Cela vous donnera une estimation moyenne de l'effet des épidémies (et suppose implicitement que l'affect est le même pour chaque épidémie). Cependant, cette approche ne fonctionne que pour décrire l'effet, car en prévision, votre variable de régression est inconnue (vous ne savez pas quelles périodes futures seront épidémiques).

Une autre façon de rendre compte de l'épidémie est d'utiliser un modèle de mélange à deux composantes: un modèle pour la partie épidémique et un modèle pour la partie "ordinaire". Le modèle procède ensuite en deux étapes: 1) classer une période comme épidémique ou normale, puis 2) appliquer le modèle auquel elle a été classée.


(+1) de belles suggestions, bien que d'autres trucs pas si sales soient probablement possibles.
Dmitrij Celov

+1; Pour la postérité, je veux faire le commentaire suivant: Vous dites "supprimer un effet authentique ... ne peut qu'aggraver vos prévisions". Dans le contexte, vous avez clairement raison, cependant, dans le cas général, ce n'est pas nécessairement vrai. (Je pense au «compromis biais-variance», qui est très important dans la modélisation prédictive.) Encore une fois, je pense que vous êtes ici, et je sais que vous connaissez le compromis biais-variance; Je tiens à le mentionner pour quiconque rencontrera cette réponse à l'avenir et pourrait mal interpréter cette déclaration.
gung - Rétablir Monica

5

Pour vous donner une réponse générale à votre question, permettez-moi de paraphraser l'un de mes anciens directeurs généraux: les opportunités de recherche se trouvent dans les valeurs aberrantes du modèle que vous adaptez.

La situation est similaire à l'expérience réalisée par mon Robert Millikan pour déterminer la charge d'un électron. Des décennies après avoir remporté le prix Nobel pour son expérience, ses notes ont été examinées et il a été constaté qu'il a jeté un grand nombre de points de données parce qu'ils n'étaient pas d'accord avec les résultats qu'il recherchait. Est-ce une mauvaise science?

Si vous trouvez quelques valeurs aberrantes, elles sont peut-être dues à des "aberrations statistiques". Cependant, si vous trouvez plus de quelques valeurs aberrantes, vous devez explorer vos données de plus près. Si vous ne pouvez pas attribuer une cause aux aberrations, alors vous ne comprenez pas le processus et un modèle statistique ne résoudra pas votre problème. Le but d'un modèle est de résumer un processus, le modèle ne résumera pas comme par magie un processus que l'expérimentateur ne comprend pas.


C'est la tendance humaine. Robert Millikan n'a pas fait exception. Je suis très heureux que tant de nouvelles choses aient été éclairées et que la philosophie derrière un modèle statistique soit soulignée.
DrWho

5

Le rôle du "nettoyage des données" est d'identifier quand "nos lois (modèle) ne fonctionnent pas". L'ajustement des valeurs aberrantes ou des points de données anormaux nous permet d'obtenir des «estimations robustes» des paramètres du modèle actuel que nous considérons. Ces «valeurs aberrantes», si elles ne sont pas traitées, permettent une distorsion indésirable dans les paramètres du modèle, car l'estimation est «motivée pour expliquer ces points de données» qui «ne se comportent pas selon notre modèle hypothétique». En d'autres termes, il y a beaucoup de retour sur investissement en termes de somme des carrés expliquée en se concentrant sur les "méchants". Les points identifiés empiriquement qui nécessitent un nettoyage doivent être soigneusement examinés afin de potentiellement développer / suggérer des facteurs de cause qui ne sont pas dans le modèle actuel.

Comment évaluer l'effet d'une intervention dans un État par rapport à un autre en utilisant le taux annuel de létalité?

Faire de la science, c'est rechercher des schémas répétés.

Détecter des anomalies, c'est identifier des valeurs qui ne suivent pas des schémas répétés. Sinon, comment sauriez-vous qu'un point a violé ce modèle? En fait, le processus de croissance, de compréhension, de recherche et d'examen des valeurs aberrantes doit être itératif. Ce n'est pas une nouvelle pensée.

Sir Frances Bacon, écrivant dans Novum Organum il y a environ 400 ans, a déclaré: «Les erreurs de la nature, des sports et des monstres corrigent la compréhension des choses ordinaires et révèlent des formes générales. Car quiconque connaît les voies de la Nature remarquera plus facilement ses déviations; et, d'autre part, quiconque connaît ses écarts décrira plus précisément ses voies. »

Nous changeons nos règles en observant quand les règles actuelles échouent.

Si en effet les valeurs aberrantes identifiées sont toutes des impulsions et ont des effets similaires (taille), nous suggérons ce qui suit (cité d'une autre affiche)

"Une façon" rapide et sale "de le faire dans un cadre de régression consiste à inclure un indicateur des années / périodes épidémiques comme variable régressrice. Cela vous donnera une estimation moyenne de l'effet des épidémies (et suppose implicitement que l'affect est la même chose pour chaque épidémie). Cependant, cette approche ne fonctionne que pour décrire l'effet, car dans la prévision, votre variable de régression est inconnue (vous ne savez pas quelles périodes futures seront épidémiques). "

Ceci, bien sûr, nécessite que les anomalies individuelles (années d'impulsion) aient des effets similaires. S'ils diffèrent, une variable de portemanteau décrite ci-dessus serait incorrecte.


@IrishStat: Grande explication et une citation mémorable. Vous avez conservé votre ancienneté et votre expertise. Pouvez-vous bien vouloir développer votre déclaration "connaissances en attente d'être découvertes" en référence à ma question précédente stats.stackexchange.com/questions/8358/…
DrWho

1
@DrWHO: L'identification du LEVEL SHIFT à 2014 qui a remédié à un tracé résiduel de très mauvaise apparence est un exemple de "connaissances en attente d'être découvertes" car il a dévoilé le délai apparent entre une date de changement de politique et sa date de mise en œuvre / réalisation complète. La déclaration selon laquelle un changement de niveau (échelon) permanent a été entièrement réalisé en 2004 (année 11 sur 17) reflète la date de facto alors que la date de jure était antérieure de quelques années.
IrishStat

@IrishStat: Merci pour la clarification. Il est très difficile de convaincre les décideurs politiques, les médecins et le public qu'un traitement particulier peut entraîner des changements radicaux dans l'issue de la maladie. Cela prend des décennies. Ce changement de niveau observé en 2004 reflète le retard à accepter quelque chose de nouveau. Est-il préférable de laisser le décalage de niveau ou de le traiter comme une valeur aberrante pour les calculs des taux de mortalité
DrWho

1
mon commentaire ci-dessus aurait dû être LEVEL SHIFT à 2004. Désolé pour la confusion.
IrishStat

1
@DrWHO: En réponse à votre question "Est-il préférable de quitter le changement de niveau ou de le traiter comme une valeur aberrante pour les calculs des taux de létalité dans l'État 1 tout en traitant la question". Si vous ne le traitez pas, on peut simplement dire que STATE1 a eu un changement de niveau en 2004 alors que STATE2 ne l'a pas fait, ils sont donc différents, mais on ne peut pas placer de probabilité sur cette déclaration. Après avoir traité STATE1 pour le changement de niveau, on a normalisé les données pour un changement d'état à 2004. Les données normalisées (données nettoyées) peuvent ensuite être comparées avec les données normalisées de STATE2 sans perte de généralité.
IrishStat

5

L'une des méthodes les plus couramment utilisées pour trouver des épidémies dans les données rétrospectives est en fait de rechercher des valeurs aberrantes - de nombreux chercheurs sur la grippe, par exemple, se concentrent principalement sur les résidus de leurs modèles ajustés, plutôt que sur les modèles eux-mêmes, pour voir les endroits où le "jour" in, day out "les prédictions du modèle échouent - l'une des façons dont le modèle peut échouer est l'apparition d'une épidémie.

Il est cependant impératif de faire la distinction entre la chasse aux valeurs aberrantes dans vos résultats - probablement pas la meilleure idée jamais - et ce que la plupart des gens appellent le "nettoyage des données". Ici, vous recherchez des valeurs aberrantes non pas parce qu'elles représentent un problème statistique, mais parce qu'elles posent des problèmes de qualité des données.

Par exemple, dans un ensemble de données que j'ai, il y a une variable pour le début de la maladie. Pour un sujet, cette date est en novembre 1929. Est-ce que je pense que c'est exact? Non. Cela indique un problème de qualité des données qui doit être résolu - dans ce cas, corriger la date en fonction d'autres informations sur le sujet. Ce type de nettoyage des données améliorera activement la qualité de vos résultats statistiques.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.