Ce n'est pas parce que le résumé à cinq chiffres est identique que la distribution est identique. Cela vous indique combien d'informations sont perdues lorsque nous présentons des données sous forme graphique dans un diagramme en boîte!
La façon la plus simple de voir le problème est peut-être que le résumé à cinq chiffres ne vous dit rien sur la répartition des valeurs entre le quartile minimum et le quartile inférieur, ou entre le quartile inférieur et la médiane, etc. Vous savez que la fréquence entre le quartile minimum et le quartile inférieur doit correspondre à la fréquence entre le quartile inférieur et la médiane (avec les exceptions évidentes, par exemple si nous avons des données se situant dans un quartile, ou pire, si deux quartiles sont liés) mais ne sais pas à quelles valeurs de la variable ces fréquences sont attribuées. Nous pouvons avoir une situation comme celle-ci:
Ces deux distributions ont le même résumé à cinq chiffres, de sorte que leurs boîtes à moustaches sont identiques, mais j'ai choisi pour avoir une distribution uniforme entre chaque quartile tandis que a une distribution avec des basses fréquences proches des quartiles et des hautes fréquences au milieu de deux quartiles. En effet, la distribution de a été formée en prenant la distribution de et en éloignant la plupart des données proches d'un quartile; mon code effectue cela en sens inverse, en commençant par la distribution irrégulière de et en nivelant les fréquences en réaffectant les données des pics pour remplir les creux.XOuiOuiXR
Oui
EDIT: Comme le dit @Glen_b, cela devient encore plus évident lorsque vous regardez les distributions cumulatives. J'ai ajouté un quadrillage pour montrer l'emplacement des quartiles, qui sont les mêmes pour les deux distributions, de sorte que leurs CDF empiriques se croisent.
Code R
yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))
x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)
ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n",
main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
lty = "solid", lwd=2, bty="n")
par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")
summary(x)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00
summary(y)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 1.00 20.75 40.50 40.50 60.25 80.00