À ma connaissance, il existe une généralisation de la boîte à moustaches standard dans laquelle les longueurs des moustaches sont ajustées pour tenir compte de données asymétriques. Les détails sont mieux expliqués dans un livre blanc très clair et concis (Vandervieren, E., Hubert, M. (2004) "Une boîte à moustaches ajustée pour les distributions asymétriques", voir ici ).
Il existe une implémentation de ( ) ainsi que matlab (dans une bibliothèque appelée ).Rlibrarobustbase::adjbox()libra
Je trouve personnellement que c'est une meilleure alternative à la transformation de données (bien qu'elle soit également basée sur une règle ad-hoc, voir le livre blanc).
Incidemment, je trouve que j'ai quelque chose à ajouter à l'exemple de Whuber ici. Dans la mesure où nous discutons du comportement des moustaches, nous devrions également considérer ce qui se passe lorsque l'on considère des données contaminées:
library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20, 4, 4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox( B1, col="red", main="adjusted boxplot of data")
Dans ce modèle de contamination, B1 a essentiellement une distribution log-normale sauf pour 20% des données qui sont à moitié gauche, à moitié à droite (le point de rupture de adjbox est le même que celui des boîtes à moustaches ordinaires 25% des données peuvent être mauvaises).
Les graphiques décrivent les boîtes à moustaches classiques des données transformées (en utilisant la transformation de la racine carrée)
et la boîte à moustaches ajustée des données non transformées.
Comparée aux boîtes à moustaches ajustées, la première option masque les valeurs aberrantes réelles et qualifie les bonnes données de valeurs aberrantes. En général, il sera bon de dissimuler toute preuve d'asymétrie dans les données en classant les points incriminés comme des points aberrants.
Dans cet exemple, l'approche consistant à utiliser la boîte à moustaches standard à la racine carrée des données trouve 13 valeurs aberrantes (toutes à droite), tandis que la boîte à moustiquaire ajustée trouve 10 valeurs éloignées à droite et 14 à gauche.
EDIT: box complots ajustés en un mot.
Dans les boîtes à moustaches classiques, les moustaches sont placées à:
Q 3Q1 -1.5 * IQR et + 1.5 * IQRQ3
où IQR est la plage inter-quantile, est le 25e centile et est le 75e centile des données. La règle de base est de considérer tout ce qui se trouve en dehors de la clôture comme des données douteuses (la clôture correspond à l'intervalle entre les deux moustaches).Q 3Q1Q3
Cette règle empirique est ad-hoc: la justification est que si la partie non contaminée des données est approximativement gaussienne, moins de 1% des bonnes données seraient classées comme mauvaises en utilisant cette règle.
Comme le fait remarquer le PO, une des faiblesses de cette règle de clôture est que la longueur des deux moustaches est identique, ce qui signifie que la règle de clôture n'a de sens que si la partie non contaminée des données a une distribution symétrique.
Une approche populaire consiste à préserver la règle de clôture et à adapter les données. L'idée est de transformer les données en utilisant des transformations monotones correctrices asymétriques (transformations de racine carrée ou de log ou plus généralement de transformées box-cox). C'est une approche quelque peu confuse: elle repose sur une logique circulaire (la transformation doit être choisie de manière à corriger l'asymétrie de la partie non contaminée des données, qui est à ce stade inobservable) et tend à rendre les données plus difficiles à interpréter visuellement. En tout état de cause, cela reste une procédure étrange selon laquelle on modifie les données pour conserver ce qui est après tout une règle ad hoc.
Une alternative consiste à laisser les données intactes et à modifier la règle de la moustache. La boîte à moustaches ajustée permet à la longueur de chaque moustache de varier en fonction d'un index mesurant l'asymétrie de la partie non contaminée des données:
exp ( M , α ) Q 3 exp ( M , β )Q1 - 1.5 * IQR et + 1.5 * IQRexp(M,α)Q3exp(M,β)
Où est un indice d'asymétrie de la partie non contaminée des données (c'est-à-dire que la médiane est une mesure de localisation pour la partie non contaminée des données ou du MAD une mesure de la dissémination pour la partie non contaminée des données) et sont des nombres choisis tels que, pour les distributions asymétriques non contaminées, la probabilité de mentir à l'extérieur de la clôture soit relativement faible pour une vaste collection de distributions asymétriques (il s'agit de la partie ad-hoc de la règle de clôture).α βMα β
Pour les cas où la bonne partie des données est symétrique, et nous revenons aux moustaches classiques.M≈0
Les auteurs suggèrent d’utiliser le couple med comme estimateur de (voir référence dans le livre blanc) en raison de sa grande efficacité (bien qu’en principe, tout indice de biais important puisse être utilisé). Avec ce choix de , ils ont ensuite calculé les valeurs optimales et empiriquement (en utilisant un grand nombre de distributions asymétriques) comme suit:M α βMMαβ
exp ( - 4 M ) Q 3 exp ( 3 M ) M ≥ 0Q1 - 1.5 * IQR et + 1.5 * IQR, siexp(−4M)Q3exp(3M)M≥0
Q1 - 1.5 * IQR et + 1.5 * IQR, siQ 3 exp ( 4 M ) M < 0exp(−3M)Q3exp(4M)M<0