Remplacer les valeurs aberrantes par une moyenne


31

Cette question a été posée par mon ami qui n'est pas averti d'Internet. Je n'ai aucun fond de statistiques et j'ai cherché autour d'Internet pour cette question.

La question est: est-il possible de remplacer les valeurs aberrantes par une valeur moyenne? si c'est possible, existe-t-il des références de livres / revues pour sauvegarder cette déclaration?


25
Il est certainement possible de le faire, mais il est difficile d'imaginer une situation où cela a du sens de le faire.
Peter Flom - Réintègre Monica

2
Déjà plusieurs réponses plus longues, mais il est peu probable que le résumé d'une phrase de @Peter Flom corresponde à un résumé.
Nick Cox

4
Aucune réponse n'a pour l'instant mis en évidence l'éléphant dans la pièce: bien que le remplacement des «valeurs aberrantes» par la moyenne préserve la moyenne d'un ensemble de données, il modifie presque toutes les autres statistiques. Il modifie même les estimations de l'erreur type de la moyenne. En conséquence - à l'appui du commentaire de @Peter Flom - l'ensemble de données résultant ne semble pas utile pour toute forme fiable d'inférence. (En théorie, il pourrait être utilisé non pas en tant que tel, mais à des étapes intermédiaires dans une procédure itérative pour identifier les valeurs aberrantes, expliquant ainsi pourquoi une telle procédure pourrait exister en premier lieu.)
Whuber

1
@whuber Clairement un point clé. J'en ferais une autre réponse, afin que personne ne lise ce fil trop rapidement. Les gens tentés par cet appareil, et il y en a évidemment certains, doivent réaliser que ce n'est (a) pas une bonne idée (b) une mauvaise idée.
Nick Cox

1
@ user2357112 L'implication est que la moyenne à utiliser est la moyenne des autres valeurs. La valeur aberrante, considérée comme non fiable, ne doit pas être incluse dans le calcul.
Nick Cox

Réponses:


41

De toute évidence, c'est possible, mais il n'est pas certain que cela puisse être une bonne idée.

Expliquons plusieurs façons dont il s'agit d'une solution limitée ou déficiente:

  • En fait, vous dites que la valeur aberrante est totalement indigne de confiance, dans la mesure où votre seule supposition possible est que la valeur devrait être la moyenne. Si c'est ce que vous pensez, il est probablement plus honnête d'omettre simplement l'observation en question, car il est évident que vous ne disposez pas de suffisamment d'informations pour faire une meilleure estimation.

  • Avec rien d'autre dit, vous avez besoin d'un critère ou de critères pour identifier les valeurs aberrantes en premier lieu (comme l'indique @Frank Harrell). Sinon, il s'agit d'une procédure arbitraire et subjective, même si elle est défendue comme une question de jugement. Avec certains critères, il est possible que la suppression des valeurs aberrantes de cette manière crée encore plus de valeurs aberrantes comme effet secondaire. Un exemple pourrait être que les valeurs aberrantes sont plus que tant d'écarts-types de la moyenne. La suppression d'une valeur aberrante modifie l'écart type et de nouveaux points de données peuvent désormais être qualifiés, etc.

  • Vraisemblablement, la moyenne ici signifie la moyenne de toutes les autres valeurs, un point explicité par @David Marx. L'idée est ambiguë sans cette stipulation.

  • L'utilisation de la moyenne peut sembler une procédure sûre ou prudente, mais le changement d'une valeur à la moyenne changera presque toutes les autres statistiques, y compris les mesures de niveau, d'échelle et de forme et les indicateurs de leur incertitude, un point souligné par @whuber.

  • La moyenne peut même ne pas être une valeur réalisable: des exemples simples sont lorsque les valeurs sont des entiers, mais généralement la moyenne n'est pas un entier.

  • Même avec l'idée que l'utilisation d'une mesure sommaire est une chose prudente à faire, utiliser la moyenne plutôt que la médiane ou toute autre mesure nécessite une justification.

  • Chaque fois qu'il existe d'autres variables, la modification de la valeur d'une variable sans référence à d'autres peut rendre un point de données anormal dans d'autres sens.

Que faire des valeurs aberrantes est une question ouverte et très difficile. De façon lâche, différentes solutions et stratégies ont un attrait variable. Voici une liste partielle des possibilités. La commande est arbitraire et ne vise à transmettre aucun ordre en termes d'applicabilité, d'importance ou de tout autre critère. Ces approches ne s'excluent pas non plus.

  • Une définition (à mon avis bonne) est que "[l] es utliers sont des valeurs d'échantillon qui provoquent la surprise par rapport à la majorité de l'échantillon" (WN Venables et BD Ripley. 2002. Statistiques appliquées modernes avec S. New York: Springer, p.119). Cependant, la surprise est dans l'esprit du spectateur et dépend d'un certain modèle tacite ou explicite des données. Il peut y avoir un autre modèle selon lequel la valeur aberrante n'est pas du tout surprenante, de sorte que les données sont vraiment (disons) lognormales ou gamma plutôt que normales. En bref, préparez-vous à (réexaminer) votre modèle.

  • Allez au laboratoire ou sur le terrain et refaites la mesure. Souvent, cela n'est pas réalisable, mais cela semble standard dans plusieurs sciences.

  • Testez si les valeurs aberrantes sont authentiques. La plupart des tests me semblent assez artificiels, mais vous pourriez en trouver un qui, selon vous, correspond à votre situation. La foi irrationnelle qu'un test est approprié est toujours nécessaire pour appliquer un test qui est ensuite présenté comme rationnellement par essence.

  • Jetez-les comme une question de jugement.

  • Jetez-les en utilisant une règle plus ou moins automatisée (généralement pas «objective»).

  • Ignorez-les, partiellement ou complètement. Cela peut être formel (par exemple, rognage) ou simplement une question de les laisser dans le jeu de données, mais de les omettre des analyses car trop chaudes pour être gérées.

  • Tirez-les en utilisant une sorte d'ajustement, par exemple Winsorizing.

  • Les minimiser en utilisant une autre méthode d'estimation robuste.

  • Les minimiser en travaillant sur une échelle transformée.

  • Les minimiser en utilisant une fonction de lien sans identité.

  • Accueillez-les en ajustant une distribution appropriée à queue grasse, longue ou lourde, sans ou avec des prédicteurs.

  • Accueillir en utilisant un indicateur ou une variable fictive comme prédicteur supplémentaire dans un modèle.

  • Éliminez le problème en utilisant une procédure non paramétrique (par exemple basée sur le classement).

  • Maîtrisez l'incertitude implicite en utilisant le bootstrap, le jackknifing ou la procédure basée sur la permutation.

  • Modifier pour remplacer une valeur aberrante par une valeur plus probable, basée sur une logique déterministe. "Une grand-mère de 18 ans est peu probable, mais la personne en question est née en 1932, elle a donc vraisemblablement 81 ans."

  • Modifiez pour remplacer une valeur aberrante impossible ou invraisemblable en utilisant une méthode d'imputation qui est actuellement acceptable comme une magie pas tout à fait blanche.

  • Analysez avec et sans, et voyez dans quelle mesure la ou les valeurs aberrantes font une différence, statistiquement, scientifiquement ou pratiquement.

  • Quelque chose de bayésien. Mon ignorance préalable de tout ce qui interdit de donner des détails.

EDIT Cette deuxième édition bénéficie d'autres réponses et commentaires. J'ai essayé de signaler mes sources d'inspiration.


1
(+1) belle réponse. Du côté bayésien, on pourrait faire beaucoup de choses, mais en fait, vous essayez de construire un modèle pour savoir comment vous en êtes arrivé à avoir de telles valeurs (le processus qui a conduit à la valeur aberrante). Par exemple, cela peut être quelque chose de simple comme «chaque valeur de données a une petite probabilité inconnue de provenir d'une distribution qui est beaucoup plus sauvage que la majeure partie des données» puis de mettre une distribution préalable sur cette probabilité et de formaliser un choix pour ce plus sauvage distribution et prior pour ses paramètres. L'effet est de sous-pondérer l'impact des points qui ne correspondent pas au modèle.
Glen_b -Reinstate Monica

16

Il y a plusieurs problèmes impliqués par votre question.

  1. Qu'est-ce qu'une "valeur aberrante"?
  2. Faut-il remplacer une "valeur aberrante"?
  3. Quelle est la particularité de la moyenne par rapport à une autre estimation?
  4. Comment compenseriez-vous pour augmenter la variance apparente lors du remplacement par une valeur unique qui rend la variance trop petite?
  5. Pourquoi ne pas utiliser des estimateurs robustes résistants aux valeurs aberrantes?
  6. S'agit-il d'une variable indépendante ou dépendante?

Aucun des 1 à 5 n'a de réponse évidente. Si vous pensez vraiment que ces «valeurs aberrantes» sont erronées et que vous ne voulez pas utiliser une méthode statistique robuste, vous pouvez les faire disparaître et utiliser l'imputation multiple comme une solution possible. Si la variable est une variable dépendante, un choix robuste est la régression ordinale.


1
+1, bons points. Je suis intrigué par la suggestion de l'OLR; y a-t-il une raison pour laquelle vous préférez cela à l'utilisation d'une fonction de perte robuste telle que la bisquare de Tukey?
gung - Rétablir Monica

2
YY

9

La proposition comporte de nombreux défauts. Voici peut-être le plus grand.

Supposons que vous collectez des données et que vous voyez ces valeurs:

2,3,1

6/3=2

Vient ensuite une valeur aberrante:

2,3,1,1000

Vous le remplacez donc par la moyenne:

2,3,1,2

Le numéro suivant est bon:

2,3,1,2,7

Maintenant, la moyenne est de 3. Attendez une minute, la moyenne est maintenant de 3, mais nous avons remplacé 1000 par une moyenne de 2, simplement parce que cela s'est produit comme quatrième valeur. Et si nous changeons l'ordre des échantillons?

2,3,1,7,1000

(2+3+1+7)/4=13/4

Le problème est que la fausse donnée que nous substituons à la place de 1000 dépend des autres données. C'est un problème épistémologique si les échantillons sont censés représenter des mesures indépendantes.

nnnnn

Fondamentalement, rogner les résultats qui ne correspondent pas est une chose (et peut être justifié s'il est fait de manière cohérente selon un algorithme, plutôt que selon les changements d'humeur changeants de l'expérimentateur).

La falsification pure et simple de résultats est répréhensible pour des raisons philosophiques, épistémologiques et éthiques.

Il peut y avoir des circonstances atténuantes, qui ont à voir avec la façon dont les résultats sont utilisés. Comme par exemple, disons que cette substitution des valeurs aberrantes par la moyenne actuelle fait partie d'un algorithme informatique intégré, ce qui lui permet de mettre en œuvre un système de contrôle en boucle fermée. (Il échantillonne certaines sorties du système, puis ajuste les entrées afin d'obtenir le contrôle.) Tout est en temps réel, et donc quelque chose doit être fourni pour une période de temps donnée à la place des données manquantes. Si ce fudging aide à surmonter les pépins et assure un bon fonctionnement, alors tout va bien.

Voici un autre exemple, de la téléphonie numérique: PLC (dissimulation de perte de paquets). La merde se produit et les paquets se perdent, mais la communication est en temps réel. Le PLC synthétise de faux morceaux de voix sur la base d'informations récentes sur la hauteur des paquets correctement reçus. Donc, si un locuteur disait la voyelle "aaa" puis qu'un paquet était perdu, le PLC peut remplir le paquet manquant en extrapolant le "aaa" pour la durée de la trame (disons 5 ou 10 millisecondes ou autre). Le "aaa" est tel qu'il ressemble à la voix du locuteur. Ceci est analogue à l'utilisation d'une "moyenne" pour remplacer les valeurs considérées comme mauvaises. C'est une bonne chose; c'est mieux que le son coupé et coupé, et aide à l'intelligibilité.

Si le truquage des données fait partie d'un programme de mentir aux gens pour couvrir un travail défaillant, c'est autre chose.

Nous ne pouvons donc pas y penser indépendamment de l'application: comment les statistiques sont-elles utilisées? Les substitutions conduiront-elles à des conclusions invalides? Y a-t-il des implications éthiques?


L'histoire de la téléphonie est très intéressante, mais il semble qu'une question d'interpolation défendable remplace les valeurs manquantes. Le lien avec le remplacement des valeurs aberrantes est ténu, car seules des opérations purement locales sont nécessaires et les changements locaux sont secondaires à l '"analyse" de l'ensemble de données.
Nick Cox

2
Beaucoup d'idées intéressantes ici (+1). Notez, cependant, que la procédure de remplacement n'est pas nécessairement séquentielle. On peut identifier toutes les «valeurs aberrantes» à la fois et les remplacer toutes par la moyenne des autres. Il s'agit d'une procédure cohérente qui n'est pas sans rappeler Winsorizing.
whuber

6

Cet article de Cousineau et Chartier discute du remplacement des valeurs aberrantes par la moyenne

http://www.redalyc.org/pdf/2990/299023509004.pdf

Ils écrivent:

Tabachnick et Fidell (2007) ont suggéré de remplacer les données manquantes par la moyenne des données restantes dans la cellule correspondante. Cependant, cette procédure aura tendance à réduire la propagation de la population, à rendre la distribution observée plus leptokurtic, et peut-être augmenter la probabilité d'une erreur de type I. Une technique plus élaborée, les imputations multiples, consiste à remplacer les valeurs aberrantes (ou les données manquantes) par des valeurs possibles (Elliott et Stettler, 2007; Serfling et Dang, 2009).

Il existe également un package R "valeurs aberrantes" qui a une fonction pour remplacer les valeurs aberrantes par la moyenne. J'ai également vu un certain nombre de résultats dans ma recherche Google qui impliquent que SPSS a également une telle fonction, mais je ne connais pas ce programme. Peut-être que si vous suivez les discussions, vous pouvez découvrir la base technique de la pratique.

Les références

  • Cousineau, D. et Chartier, S. (2010). Détection et traitement des valeurs aberrantes: un examen. Journal international de recherche psychologique, 3 (1), 58-67.

J'ai recherché dans votre référence toutes les occurrences du mot «moyenne» et je n'ai trouvé aucun endroit où il serait question de remplacer les valeurs aberrantes par la moyenne. Si j'ai raté quelque chose, pourriez-vous indiquer plus précisément où cette discussion a lieu?
whuber

1
J'ai changé le lien parce que je ne pouvais pas le faire fonctionner. À la page 9 du document, l'auteur dit: «Les valeurs aberrantes qui sont clairement le résultat d'une activité parasite doivent être supprimées. Cependant, dans les conceptions à plusieurs variables, cela peut entraîner la suppression d'un trop grand nombre de participants au point que l'analyse ne peut plus être effectuée. . Tabachnick et Fidell (2007) ont suggéré de remplacer les données manquantes par la moyenne des données restantes dans la cellule correspondante. "
Thomas

2
Merci: je le vois maintenant. Cependant, le décrire comme une "discussion" - qui suggère qu'il peut y avoir un certain équilibre entre le pour et le contre - peut être quelque peu trompeur, car ce passage mentionne la procédure de substitution moyenne (a) uniquement pour les applications multivariées et (b) uniquement pour souligner ses défauts, en concluant avec une suggestion de considérer l'imputation multiple à la place. (Fait intéressant, la référence de l'article pour cette procédure n'apparaît même pas dans sa bibliographie.)
whuber

5
Oui, il est étrange que la référence citée ne soit pas dans le dossard. Il semble que ce soit le livre "Modèles expérimentaux utilisant l'ANOVA". J'essayais de répondre à la demande initiale et de fournir des références pour la pratique consistant à substituer la moyenne aux valeurs aberrantes. Ce document était tout ce que je pouvais trouver dans une recherche rapide et j'espérais qu'il pourrait fournir des pistes pour que le PO puisse trouver une réponse plus complète.
Thomas

4

La principale chose à garder à l'esprit lorsque vous traitez avec des valeurs aberrantes est de savoir si elles fournissent des informations utiles. Si vous vous attendez à ce qu'ils se produisent régulièrement, les supprimer des données garantira que votre modèle ne les prédira jamais. Bien sûr, cela dépend de ce que vous voulez que le modèle fasse, mais il convient de garder à l'esprit que vous ne devez pas nécessairement les laisser tomber. S'ils contiennent des informations importantes, vous voudrez peut-être envisager un modèle qui peut en tenir compte. Un moyen simple de le faire est de prendre des journaux des variables, qui peuvent prendre en compte les relations de loi de puissance. Alternativement, vous pouvez utiliser un modèle qui en tient compte avec une distribution détaillée des erreurs.

Si vous souhaitez les supprimer, les méthodes habituelles sont de les supprimer ou de les winsoriser pour supprimer les valeurs extrêmes. Je n'ai pas de manuel à portée de main mais les liens Wiki là-bas en réfèrent à certains si vous voulez en savoir plus. La plupart des textes sur les statistiques appliquées devraient avoir une section sur les valeurs aberrantes.


3

Je connais deux approches similaires en matière de statistiques.

  • 1
  • Winsorisation: similaire à la moyenne ajustée, vous ne modifiez que les observations extrêmes. Cependant, au lieu de les supprimer, vous les remplacez par l'observation non extrême la plus grande / la plus petite. Cela fonctionne souvent légèrement mieux que le rognage.

Pour des exemples plus détaillés, voir Wikipedia:

https://en.wikipedia.org/wiki/Trimmed_estimator

https://en.wikipedia.org/wiki/Winsorising

Notez que cela fonctionne bien pour certaines statistiques comme lors du calcul de la moyenne. La moyenne ajustée / winsorisée est souvent une meilleure estimation de la moyenne réelle que la moyenne artihmétique. Dans d'autres cas, cela peut ruiner vos statistiques. Par exemple, lors du calcul de la variance, le rognage sous-estimera toujours votre vraie variance. La winsorisation, en supposant qu'en effet certaines des observations extrêmes sont défectueuses, fonctionnera un peu mieux alors (elle sera probablement encore sous-estimée, mais pas autant).

Je ne vois pas comment le remplacement des valeurs extrêmes par la moyenne s'inscrirait ici.

Cependant, une autre pratique est liée: l' imputation de la valeur manquante . En supposant que votre valeur aberrante est des données défectueuses et sans valeur, vous devez donc les supprimer. Lorsque vous effectuez ensuite l'imputation, une valeur de remplacement typique serait la moyenne ou le mode:

https://en.wikipedia.org/wiki/Imputation_%28statistics%29


1
La coupe asymétrique est une tactique connue et défendable.
Nick Cox

2

L'approche traditionnelle pour gérer les valeurs aberrantes consiste simplement à les supprimer de sorte que votre modèle ne soit formé que sur de «bonnes» données.

Gardez à l'esprit que la valeur moyenne est affectée par la présence de ces valeurs aberrantes. Si vous remplacez les valeurs aberrantes par la moyenne calculée après que les valeurs aberrantes ont été supprimées de votre ensemble de données , cela ne fera aucune différence puisque la ligne de régression (de la régression linéaire simple) passera de toute façon par la moyenne de vos données d'entraînement (cela réduira la variance de votre cependant, ce qui est probablement le contraire de ce que vous voulez étant donné que vous savez qu'il y a des valeurs aberrantes).

L'effet que votre approche aura sur le modèle dépend de l'influence (effet de levier) de la valeur aberrante. Je déconseille l'approche que vous proposez au lieu de simplement supprimer complètement le point.


4
La suppression des données entraînera un biais à moins que la procédure de suppression ne soit objective et que la même procédure soit appliquée à toutes les données futures pour lesquelles des prédictions sont obtenues.
Frank Harrell

0

oui, les valeurs aberrantes peuvent être remplacées sous plusieurs formes, par exemple, prenons un ensemble de données de la taille des hauteurs humaines, disons que nous avons des valeurs aberrantes comme 500 cm et 400 cm, nous pouvons simplement remplacer les points de données qui apparaissent dans l'ensemble de données en raison d'une erreur qui s'est produite lors de l'enregistrement des données. les options que vous pouvez essayer sont donc 1. de les remplacer par la couleur médiane de l'ensemble des données (pas la moyenne, car elle est sujette aux valeurs aberrantes). 2. remplacez par le point de données le plus fréquent dans la colonne. 3. Si des valeurs catégorielles, vous pouvez essayer le codage de réponse (dans lequel vous enregistrez la probabilité du mot ou les valeurs se produisant par le nombre total de mots)

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.