Puis-je utiliser des diagrammes en boîte et moustaches également pour la distribution multimodale ou uniquement pour la distribution unimodale?
Puis-je utiliser des diagrammes en boîte et moustaches également pour la distribution multimodale ou uniquement pour la distribution unimodale?
Réponses:
Le problème est que le boxplot * habituel ne peut généralement pas donner une indication du nombre de modes. Alors que dans certaines circonstances (généralement rares) il est possible d'obtenir une indication claire que le plus petit nombre de modes dépasse 1, le plus souvent un boxplot donné est cohérent avec un ou n'importe quel plus grand nombre de modes.
* Plusieurs modifications des types habituels de boîtes à moustaches ont été suggérées, ce qui en fait plus pour indiquer les changements de densité et de came à utiliser pour identifier plusieurs modes, mais je ne pense pas que ce soit le but de cette question.
Par exemple, alors que cette parcelle n'indique la présence d'au moins deux modes (les données ont été générées de façon à avoir exactement deux) -
à l'inverse, celui-ci a deux modes très clairs dans sa distribution, mais vous ne pouvez tout simplement pas le dire du boxplot:
Les boxplots ne transmettent pas nécessairement beaucoup d'informations sur la distribution. En l'absence de points marqués à l'extérieur des moustaches, ils ne contiennent que cinq valeurs, et un résumé à cinq chiffres ne précise pas beaucoup la distribution . Cependant, la première figure ci-dessus montre un cas où le cdf est suffisamment "épinglé" pour exclure essentiellement une distribution unimodale (au moins à la taille de l'échantillon de 100) - aucun cdf unimodal n'est compatible avec les contraintes sur le cdf dans ce cas, qui nécessite une hausse relativement forte au premier trimestre, un aplatissement à (en moyenne) un faible taux d'augmentation au milieu du semestre puis une nouvelle forte hausse au dernier trimestre.
En effet, la figure 1 ici (qui, je crois, est un document de travail publié plus tard dans [1]) montre quatre ensembles de données différents avec la même boîte à moustaches.
Je n'ai pas ces données à portée de main, mais il est trivial de créer un ensemble de données similaire - comme indiqué dans le lien ci-dessus relatif au résumé à cinq chiffres, nous n'avons qu'à contraindre nos distributions à se situer dans les cases rectangulaires que le résumé de cinq chiffres nous limite.
Voici le code R qui générera des données similaires à celles du document:
x1 = qnorm(ppoints(1:100,a=-.072377))
x1 = x1/diff(range(x1))*18+10
b = fivenum(x1) # all of the data has this five number summary
x2 = qnorm(ppoints(1:48));x2=x2/diff(range(x2))*.6
x2 = c(b[1],x2+b[2],.31+b[2],b[4]-.31,x2+b[4],b[5])
d = .1183675; x3 = ((0:34)-34/2)/34*(9-d)+(5.5-d/2)
x3 = c(x3,rep(9.5,15),rep(10.5,15),20-x3)
x4 = c(1,rep(b[2],24),(0:49)/49*(b[4]-b[2])+b[2],(0:24)/24*(b[5]-b[4])+b[4])
Voici un affichage similaire à celui du document, des données ci-dessus (sauf que je montre les quatre boîtes à moustaches ici):
Attention cependant - les histogrammes peuvent aussi avoir des problèmes ; en effet, nous voyons ici un de ses problèmes, parce que la distribution dans le troisième histogramme "en pointe" est en fait nettement bimodale; la largeur de l'histogramme est simplement trop large pour le montrer. De plus, comme le souligne Nick Cox dans les commentaires, les estimations de la densité du noyau peuvent également affecter l'impression du nombre de modes (parfois étalant les modes ... ou suggérant parfois de petits modes là où il n'y en a pas dans la distribution d'origine). Il faut faire attention à l'interprétation de nombreux affichages courants.
Il y a des modifications du boxplot qui peuvent mieux indiquer la multimodalité (parcelles de vase, parcelles de violon et parcelles de haricots, entre autres). Dans certaines situations, ils peuvent être utiles, mais si je suis intéressé par la recherche de modes, je vais généralement regarder un autre type d'affichage.
x4
[1]: Choonpradub, C., & McNeil, D. (2005),
"Le boxplot peut-il être amélioré?"
Songklanakarin J. Sci. Technol. , 27 : 3, pp. 649-657.
http://www.jourlib.org/paper/2081800
pdf
Il existe plusieurs options pour détecter la multimodalité avec R. Les données des graphiques ci-dessous ont été générées avec trois modes (-3,0,1). Le boxplot est clairement surpassé par les autres (l'intrigue du violon semble avoir des paramètres de densité de noyau par défaut différents), mais aucun ne fait vraiment de distinction entre les modes 0 et 1. Il y a vraiment très peu de raisons d'utiliser des boxplots à l'ère informatique. Pourquoi jeter des informations?
dat <- c(rnorm(500, -3, 1), rnorm(200, 0, 1), rnorm(300, 1, 1))
par(mfrow=c(2, 2))
boxplot(dat, horizontal=TRUE, main="Boxplot")
require(beanplot)
beanplot(dat, horizontal=TRUE, main="Beanplot")
require(viopoints)
viopoints(dat, horizontal=TRUE, main="Viopoints")
require(vioplot)
vioplot(dat, horizontal=TRUE)
title("Violin Plot")