Est-ce que deux distributions avec des résumés identiques à 5 chiffres auront toujours la même forme?

Je sais que si je peux avoir deux distributions avec la même moyenne et la même variance avoir des formes différentes, parce que je peux avoir un N (x, s) et un U (x, s)

Mais qu'en est-il si leurs valeurs min, Q1, médiane, Q3 et max sont identiques?

Les distributions peuvent-elles alors être différentes, ou devront-elles prendre la même forme?

Ma seule logique derrière cela est que s'ils ont exactement le même résumé à 5 chiffres, ils doivent prendre exactement la même forme de distribution.

distributions descriptive-statistics

— Marcin
source

La réponse à cette question est à certains égards évidente - si nous pouvions complètement caractériser une distribution simplement en citant cinq chiffres à ce sujet, alors tous ces examens sur les distributions de probabilité seraient beaucoup plus faciles! Mais cela soulève le point intéressant de savoir combien d'informations manquent lorsque nous citons le résumé à cinq chiffres ou présentons les données sous forme graphique dans un diagramme en boîte.

— Silverfish

Gardez juste à l'esprit que n'est généralement pas utilisé pour la distribution uniforme avec la moyenne et l'écart-type , mais plutôt pour la distribution uniforme sur l'intervalle qui commence à et se termine à . De plus, la notation est rarement utilisée pour la distribution normale (bien que j'aie vu certains manuels le faire); il est beaucoup plus courant que le deuxième paramètre représente la variance plutôt que l'écart-type.

U (x, s)

$U(x,s)$

x

$x$

s

$s$

x

$x$

s

$s$

N (x, s)

$N(x,s)$

— Silverfish

Réponses:

Ce n'est pas parce que le résumé à cinq chiffres est identique que la distribution est identique. Cela vous indique combien d'informations sont perdues lorsque nous présentons des données sous forme graphique dans un diagramme en boîte!

La façon la plus simple de voir le problème est peut-être que le résumé à cinq chiffres ne vous dit rien sur la répartition des valeurs entre le quartile minimum et le quartile inférieur, ou entre le quartile inférieur et la médiane, etc. Vous savez que la fréquence entre le quartile minimum et le quartile inférieur doit correspondre à la fréquence entre le quartile inférieur et la médiane (avec les exceptions évidentes, par exemple si nous avons des données se situant dans un quartile, ou pire, si deux quartiles sont liés) mais ne sais pas à quelles valeurs de la variable ces fréquences sont attribuées. Nous pouvons avoir une situation comme celle-ci:

Différentes distributions avec le même résumé à cinq chiffres et le même diagramme en boîte

Ces deux distributions ont le même résumé à cinq chiffres, de sorte que leurs boîtes à moustaches sont identiques, mais j'ai choisi pour avoir une distribution uniforme entre chaque quartile tandis que a une distribution avec des basses fréquences proches des quartiles et des hautes fréquences au milieu de deux quartiles. En effet, la distribution de a été formée en prenant la distribution de et en éloignant la plupart des données proches d'un quartile; mon code effectue cela en sens inverse, en commençant par la distribution irrégulière de et en nivelant les fréquences en réaffectant les données des pics pour remplir les creux. $X$ $Y$ $Y$ $X$ R $Y$

EDIT: Comme le dit @Glen_b, cela devient encore plus évident lorsque vous regardez les distributions cumulatives. J'ai ajouté un quadrillage pour montrer l'emplacement des quartiles, qui sont les mêmes pour les deux distributions, de sorte que leurs CDF empiriques se croisent.

CDF empiriques de deux distributions avec le même résumé à cinq chiffres

Code R

yfreq <- 2*rep(c(1:10, 10:1), times=4)
xfreq <- rep(mean(yfreq), times=length(yfreq))

x <- rep(1:length(xfreq), times=xfreq)
y <- rep(1:length(yfreq), times=yfreq)

ecdfX <- ecdf(x)
ecdfY <- ecdf(y)
plot(ecdfX, verticals=TRUE, do.points=FALSE, col="blue", lwd=2, yaxt="n", 
    main="Empirical CDFs", xlab="", ylab="Relative cumulative frequency")
plot(ecdfY, verticals=TRUE, do.points=FALSE, add=TRUE, col="black",
    yaxt="n", lwd=2)
axis(side=2, at=seq(0, 1, by=0.1), las=2)
abline(h=c(0.25,0.5,0.75,1), col="lightgrey", lty="dashed")
abline(v=summary(x), col="lightgrey", lty="dashed")
legend("right", c("x", "y"), col = c("blue", "black"),
       lty = "solid", lwd=2, bty="n")

par(mfrow=c(2,2))
hist(x, col="steelblue", breaks=((0:81)-0.5), ylim=c(0,25))
hist(y, col="grey", breaks=((0:81)-0.5), ylim=c(0,25))
boxplot(x, col="steelblue", main="Boxplot of x")
boxplot(y, col="grey", main="Boxplot of y")

summary(x)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00 

summary(y)
#   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#   1.00   20.75   40.50   40.50   60.25   80.00

— Silverfish
source

+1 Votre exemple est excellent, car on pourrait penser au départ: bien sûr, une distribution ne peut pas être entièrement décrite par cinq nombres car c'est un objet de dimension infinie, mais sûrement toutes les distributions avec la même moyenne / médiane / quartiles / etc. sont au moins très similaires! Eh bien, non, ils ne le sont pas. Soit dit en passant, vos fichiers PDF le montrent bien plus clairement que les CDF.

— amoeba

@amoeba Merci, visuellement l'histogramme est beaucoup plus frappant. Le CDF, je pense, montre plus clairement ce qui se passe, dans le sens où nous pourrions le généraliser.

— Silverfish

@amoeba Je ne suis pas sûr de comprendre "eh bien, certainement une distribution ne peut pas être entièrement décrite par cinq nombres car c'est un objet de dimension infinie" écriviez-vous cela comme exemple d'une idée fallacieuse? Par exemple, le PDF normal est un objet à deux dimensions (ou peut-être une ou deux dimensions de plus si vous voulez facturer des constantes comme ) ... un peu plus petit qu'infini! Désolé si je suis obtus.

π

$\pi$

— Alexis

@Alexis Je pense que je voulais dire "une distribution [arbitraire]" dans ce commentaire, pas une distribution d'une famille paramétrique particulière ...

— amoeba

@amoeba C'est juste. D'autant plus que c'était une utilisation rhétorique. Pourtant, nous devons faire attention à ne pas jeter "l'infini" autour ... Je pense que si quelqu'un insiste vraiment sur l'infini dans son système, il y a probablement un arbitrage à déséquilibrer quelque part. :)

— Alexis

On y répond le plus clairement en considérant la fonction de distribution (cumulative).

La spécification du minimum, du maximum et des trois quartiles spécifie exactement 5 points sur le cdf, mais le cdf entre ces points peut être n'importe quelle fonction monotone non décroissante entre les deux qui passe toujours par ces points:

entrez la description de l'image ici

Dans le dessin, les CDF rouges et noirs partagent les mêmes minimum, maximum et quartiles, mais sont clairement des distributions différentes. De toute évidence, un certain nombre d'autres CDF pourraient être spécifiés qui passent également par les cinq mêmes points.

En fait, tout ce que nous avons fait est de restreindre notre fonction de distribution dans quatre cases:

$\qquad$ entrez la description de l'image ici

(tant qu'il continue également de satisfaire aux autres conditions d'un CDF). Ce n'est pas vraiment une restriction.

La même notion peut être appliquée aux quantités d'échantillons - deux CDF empiriques différents peuvent néanmoins avoir le même résumé à cinq chiffres.

— Glen_b -Reinstate Monica
source

Non, certainement pas le cas. Comme exemple de compteur simple, comparez la distribution uniforme continue sur avec la distribution uniforme discrète sur . $[0, 3]$ $\{0, 1, 2, 3\}$

Un exemple connexe est le célèbre quatuor d'Anscombe, où il y a 4 jeux de données avec 6 propriétés d'échantillonnage identiques (bien que différentes de celles que vous mentionnez) qui semblent complètement différentes. Voir: http://en.wikipedia.org/wiki/Anscombe%27s_quartet

— Sven
source