Le repérage des valeurs aberrantes n'est pas un appel au jugement (ou en tout cas pas nécessairement un). Étant donné un modèle statistique, les valeurs aberrantes ont une définition précise et objective: ce sont des observations qui ne suivent pas le modèle de la majorité des données. Ces observations doivent être mises de côté au début de toute analyse simplement parce que leur distance par rapport à la majeure partie des données garantit qu'elles exerceront une influence disproportionnée sur tout modèle multivariable ajusté par maximum de vraisemblance (ou même sur toute autre fonction de perte convexe).
Il est important de souligner que des valeurs aberrantes multivariable s peuvent tout simplement pas être détectée de manière fiable en utilisant des résidus à partir d' un moindres carrés (ou tout autre modèle estimé par ML, ou toute autre fonction convexe de perte). En termes simples, les valeurs aberrantes multivariées ne peuvent être détectées de manière fiable qu'en utilisant leurs résidus à partir d'un modèle ajusté en utilisant une procédure d'estimation non susceptible d'être influencée par eux.
La croyance que les valeurs aberrantes se démarqueront nécessairement dans les résidus d'un ajustement classique se situe quelque part là-haut avec d'autres non-statistiques difficiles à démystifier tels que l'interprétation des valeurs de p comme mesure de la preuve ou l'inférence sur une population à partir d'un échantillon biaisé. Sauf peut-être que celui-ci pourrait bien être beaucoup plus ancien: Gauss lui-même a recommandé l'utilisation d'un estimateur robuste tel que la médiane et le fou (au lieu de la moyenne classique et des écarts-types) pour estimer les paramètres d'une distribution normale à partir d'observations bruyantes (même en allant jusqu'à dériver le facteur de cohérence du fou (1)).
Pour donner un exemple visuel simple basé sur des données réelles, considérons les fameuses données des étoiles CYG . Ici, la ligne rouge représente l'ajustement le moins carré, la ligne bleue l'ajustement obtenu en utilisant un ajustement de régression linéaire robuste. L'ajustement robuste est ici l'ajustement FastLTS (2), une alternative à l'ajustement LS qui peut être utilisé pour détecter les valeurs aberrantes (car il utilise une procédure d'estimation qui garantit que l'influence de toute observation sur le coefficient estimé est limitée). Le code R pour le reproduire est:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
Fait intéressant, les 4 observations périphériques sur la gauche n'ont même pas les plus grands résidus par rapport à l'ajustement LS et le tracé QQ des résidus de l'ajustement LS (ou l'un des outils de diagnostic qui en découlent tels que la distance de Cook ou le dfbeta) ne parvient pas à montrer l'un d'eux comme problématique. Il s'agit en fait de la norme: il ne faut pas plus de deux valeurs aberrantes (quelle que soit la taille de l'échantillon) pour tirer les estimations LS de telle sorte que les valeurs aberrantes ne se démarquent pas dans un graphique résiduel. C'est ce qu'on appelle l' effet de masquageet c'est bien documenté. Peut-être la seule chose remarquable à propos de l'ensemble de données CYGstars est qu'il est bivarié (nous pouvons donc utiliser l'inspection visuelle pour confirmer le résultat de l'ajustement robuste) et qu'il existe en fait une bonne explication pour expliquer pourquoi ces quatre observations à gauche sont si anormales.
C'est, en fait, l'exception plus que la règle: sauf dans les petites études pilotes impliquant de petits échantillons et peu de variables et où la personne effectuant l'analyse statistique était également impliquée dans le processus de collecte de données, je n'ai jamais connu de cas où des croyances antérieures concernant l'identité des valeurs aberrantes était en fait vraie. C'est d'ailleurs très facile à vérifier. Que les valeurs aberrantes aient été identifiées à l'aide d'un algorithme de détection de valeurs aberrantes ou du sentiment intestinal du chercheur, les valeurs aberrantes sont par définition des observations qui ont un effet de levier anormal (ou `` pull '') sur les coefficients obtenus à partir d'un ajustement LS. En d'autres termes, les valeurs aberrantes sont des observations dont le retrait de l'échantillon devrait gravement affecter l'ajustement LS.
Bien que je n'ai jamais personnellement vécu cela non plus, il existe des cas bien documentés dans la littérature où des observations signalées comme des valeurs aberrantes par un algorithme de détection des valeurs aberrantes se sont révélées être des erreurs grossières ou générées par un processus différent. Dans tous les cas, il n'est ni scientifiquement justifié ni judicieux de ne supprimer les valeurs aberrantes que si elles peuvent être comprises ou expliquées d'une manière ou d'une autre. Si une petite cabale d'observations est si éloignée du corps principal des données qu'elle peut à elle seule tirer les résultats d'une procédure statistique, il est sage (et je pourrais ajouter naturel) de la traiter séparément, que ces points de données ne sont pas également suspects pour d'autres motifs.
(1): voir Stephen M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900.
(2): Computing LTS Regression for Large Data Sets (2006) PJ Rousseeuw, K. van Driessen.
(3): Méthodes multivariées robustes à répartition élevée (2008). Hubert M., Rousseeuw PJ et Van Aelst S. Source: Statist. Sci. Volume 23, 92-119.