La définition standard d'une valeur aberrante pour un diagramme de Box et Whisker est des points en dehors de la plage , où et est le premier quartile et est le troisième quartile des données.
Quelle est la base de cette définition? Avec un grand nombre de points, même une distribution parfaitement normale renvoie des valeurs aberrantes.
Par exemple, supposons que vous commenciez par la séquence:
xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)
Cette séquence crée un classement centile de 4000 points de données.
Le test de normalité pour les qnorm
résultats de cette série se traduit par:
shapiro.test(qnorm(xseq))
Shapiro-Wilk normality test
data: qnorm(xseq)
W = 0.99999, p-value = 1
ad.test(qnorm(xseq))
Anderson-Darling normality test
data: qnorm(xseq)
A = 0.00044273, p-value = 1
Les résultats sont exactement comme prévu: la normalité d'une distribution normale est normale. La création d'un qqnorm(qnorm(xseq))
crée (comme prévu) une ligne droite de données:
Si un boxplot des mêmes données est créé, boxplot(qnorm(xseq))
produit le résultat:
Le boxplot, contrairement à shapiro.test
, ad.test
ou qqnorm
identifie plusieurs points comme des valeurs aberrantes lorsque la taille de l'échantillon est suffisamment grande (comme dans cet exemple).