Le commentaire de @Jerome Baum est parfait. Pour apporter la citation de Gelman ici:
La détection des valeurs aberrantes peut être une bonne chose. Le problème est que les non-statisticiens semblent aimer s'accrocher au mot «valeur aberrante» sans chercher à penser du tout au processus qui crée la valeur aberrante, certains manuels ont également des règles qui semblent stupides pour des statisticiens comme moi, des règles telles que étiqueter quelque chose comme une valeur aberrante si elle dépasse un certain nombre de sd de la médiane, ou autre. Le concept de valeur aberrante est utile, mais je pense qu'il nécessite un contexte - si vous étiquetez quelque chose comme une valeur aberrante, vous voulez essayer de comprendre pourquoi vous pensez cela.
Pour en ajouter un peu plus, que diriez-vous de définir d'abord la valeur aberrante . Essayez de le faire rigoureusement sans vous référer à quelque chose de visuel comme "on dirait que c'est loin des autres points". C'est en fait assez difficile.
Je dirais qu'une valeur aberrante est un point hautement improbable étant donné un modèle de génération de points. Dans la plupart des situations, les gens n'ont pas réellement de modèle de génération des points, ou s'ils le font, c'est tellement simplifié qu'ils se trompent la plupart du temps. Donc, comme le dit Andrew, les gens feront des choses comme supposer qu'une sorte de processus gaussien génère des points et donc si un point est supérieur à un certain nombre de SD de la moyenne, c'est une valeur aberrante. Mathématiquement pratique, pas tellement fondée sur des principes.
Et nous ne sommes même pas entrés dans ce que les gens font avec les valeurs aberrantes une fois qu'ils sont identifiés. Par exemple, la plupart des gens veulent jeter ces points gênants. Dans de nombreux cas, ce sont les valeurs aberrantes qui mènent à des percées et à des découvertes, pas les non-valeurs aberrantes!
La détection des valeurs aberrantes, comme le pratiquent les non-statisticiens, comporte de nombreuses spécificités, et Andrew n'est pas à l'aise avec cela.