Problèmes avec la détection des valeurs aberrantes

Dans un article de blog, Andrew Gelman écrit :

La régression pas à pas est l'une de ces choses, comme la détection des valeurs aberrantes et les graphiques circulaires, qui semblent être populaires parmi les non-statisticiens mais qui sont considérés par les statisticiens comme une plaisanterie.

Je comprends la référence aux graphiques circulaires, mais pourquoi la détection des valeurs aberrantes est-elle considérée par les statisticiens selon Gelman? Est-ce juste que cela pourrait amener les gens à trop tailler leurs données?

dataset outliers quality-control

— 114
source

Si vous regardez les commentaires sur la même page à laquelle vous avez lié, vous trouverez une réponse d'Andrew lui-même, ainsi qu'une discussion plus approfondie. Voir par exemple ce commentaire: andrewgelman.com/2014/06/02/hate-stepwise-regression/…

— Jerome Baum

Le détail ici sur les statisticiens par rapport aux non-statisticiens est regrettable. Examinez par exemple le traité de Barnett et Lewis sur les valeurs aberrantes et vous verrez test après test suggéré principalement par des statisticiens se concentrant sur des situations invraisemblables. Il est vrai que (par exemple) en physique, les gens suivent souvent encore les anciennes règles proposées par Peirce et Chauvenet, mais une grande partie de la stupidité est également associée aux statisticiens. Divulgation: je ne suis pas un statisticien, et j'ai tendance à croire que les valeurs aberrantes sont souvent authentiques et que trouver la bonne échelle sur laquelle travailler rend presque tout traitable.

— Nick Cox

@ NickCox: Je pense que Gelman faisait peut-être référence à différentes conversations entre statisticiens et non-statisticiens. Par exemple, lors de la recherche de comportements malveillants sur les réseaux, de nombreux non-statisticiens sont licenciés pour la détection des valeurs aberrantes; "bien sûr, je veux connaître les comportements inhabituels !!". En lisant la littérature statistique, de nombreux statisticiens commencent et terminent leurs articles "bien, cela peut être fait et voici comment mais ..."

— Cliff AB

... ou alternativement, les biologistes sont souvent d'accord pour abandonner les valeurs aberrantes, car ils pensent que ces valeurs aberrantes sont dues à des erreurs de procédure plutôt qu'à un résultat inhabituel d'une expérience correctement exécutée. Donc, pour eux, une procédure qui supprime automatiquement les erreurs de procédure sonne bien, mais un statisticien n'est pas si satisfait de ce qui se passe réellement dans la pratique.

— Cliff AB

Réponses:

Le commentaire de @Jerome Baum est parfait. Pour apporter la citation de Gelman ici:

La détection des valeurs aberrantes peut être une bonne chose. Le problème est que les non-statisticiens semblent aimer s'accrocher au mot «valeur aberrante» sans chercher à penser du tout au processus qui crée la valeur aberrante, certains manuels ont également des règles qui semblent stupides pour des statisticiens comme moi, des règles telles que étiqueter quelque chose comme une valeur aberrante si elle dépasse un certain nombre de sd de la médiane, ou autre. Le concept de valeur aberrante est utile, mais je pense qu'il nécessite un contexte - si vous étiquetez quelque chose comme une valeur aberrante, vous voulez essayer de comprendre pourquoi vous pensez cela.

Pour en ajouter un peu plus, que diriez-vous de définir d'abord la valeur aberrante . Essayez de le faire rigoureusement sans vous référer à quelque chose de visuel comme "on dirait que c'est loin des autres points". C'est en fait assez difficile.

Je dirais qu'une valeur aberrante est un point hautement improbable étant donné un modèle de génération de points. Dans la plupart des situations, les gens n'ont pas réellement de modèle de génération des points, ou s'ils le font, c'est tellement simplifié qu'ils se trompent la plupart du temps. Donc, comme le dit Andrew, les gens feront des choses comme supposer qu'une sorte de processus gaussien génère des points et donc si un point est supérieur à un certain nombre de SD de la moyenne, c'est une valeur aberrante. Mathématiquement pratique, pas tellement fondée sur des principes.

Et nous ne sommes même pas entrés dans ce que les gens font avec les valeurs aberrantes une fois qu'ils sont identifiés. Par exemple, la plupart des gens veulent jeter ces points gênants. Dans de nombreux cas, ce sont les valeurs aberrantes qui mènent à des percées et à des découvertes, pas les non-valeurs aberrantes!

La détection des valeurs aberrantes, comme le pratiquent les non-statisticiens, comporte de nombreuses spécificités, et Andrew n'est pas à l'aise avec cela.

— Wayne
source

Cela démontre le bras de fer classique entre les deux types d'objectifs pour les analyses statistiques telles que la régression: descriptive vs prédictive. (Pardonnez les généralisations dans mes commentaires ci-dessous.)

Du point de vue du statisticien, la description importe généralement plus que la prédiction. Par conséquent, ils sont intrinsèquement "biaisés" vers l'explication. Pourquoi y a-t-il une valeur aberrante? S'agit-il vraiment d'une erreur dans la saisie des données (zéros supplémentaires à la fin d'une valeur) ou s'agit-il d'un point de données valide qui se trouve être extrême? Ce sont des questions importantes pour un statisticien.

OTOH, les scientifiques des données s'intéressent davantage à la prévision qu'à la description. Leur objectif est de développer un modèle solide qui fait un excellent travail de prédiction d'un résultat futur (par exemple, achat, attrition). S'il y a une valeur extrême dans l'un des domaines, un data scientist plafonnerait volontiers cette valeur (à la valeur du 98e centile, par exemple) si cela contribue à améliorer la précision prédictive du modèle.

Je n'ai pas une inclination générale vers l'une ou l'autre de ces deux approches. Cependant, que les méthodes / approches telles que la régression pas à pas et le traitement des valeurs aberrantes soient "un peu une blague" ou non, cela dépend de quel côté de la clôture vous vous tenez.

— Vishal
source