Indépendance de la moyenne et de la variance des distributions uniformes discrètes

Dans les commentaires ci - dessous un de mes messages, Glen_b et moi discutions comment les distributions discrètes ont nécessairement une moyenne et une variance dépendantes.

Pour une distribution normale, cela a du sens. Si je te raconte $\bar{x}$ , vous ne savez pas quoi $s^2$ est, et si je vous dis $s^2$ , vous ne savez pas quoi $\bar{x}$ est. (Modifié pour tenir compte des statistiques de l'échantillon, pas des paramètres de population.)

Mais alors pour une distribution uniforme discrète, la même logique ne s'applique-t-elle pas? Si j'évalue le centre des points d'extrémité, je ne connais pas l'échelle et si j'évalue l'échelle, je ne connais pas le centre.

Qu'est-ce qui ne va pas avec ma pensée?

ÉDITER

J'ai fait la simulation de jbowman. Ensuite, je l'ai frappé avec la transformation intégrale de probabilité (je pense) pour examiner la relation sans aucune influence des distributions marginales (isolement de la copule).

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){     
    Data <- sample(seq(1,10,1),100,replace=T)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)    
}
par(mfrow=c(2,1))
plot(Data.mean,Data.var,main="Observations")
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var),main="'Copula'")

Dans la petite image qui apparaît dans RStudio, le deuxième tracé semble avoir une couverture uniforme sur le carré de l'unité, donc l'indépendance. Lors du zoom avant, il existe des bandes verticales distinctes. Je pense que cela a à voir avec la discrétion et que je ne devrais pas y lire. Je l'ai ensuite essayé pour une distribution uniforme continue sur $(0,10)$ .

Data.mean <- Data.var <- rep(NA,20000)
for (i in 1:20000){

    Data <- runif(100,0,10)
    Data.mean[i] <- mean(Data)
    Data.var[i] <- var(Data)

}
par(mfrow=c(2,1))
plot(Data.mean,Data.var)
plot(ecdf(Data.mean)(Data.mean),ecdf(Data.var)(Data.var))

Celui-ci semble vraiment avoir des points répartis uniformément sur la case de l'unité, donc je reste sceptique $\bar{x}$ et $s^2$ sont indépendants.

— Dave
source

C'est une approche intéressante que vous avez adoptée, je vais devoir y réfléchir.

— jbowman

La dépendance s'affaiblit (nécessairement) à des échantillons plus grands, il est donc difficile de voir. Essayez des tailles d'échantillon plus petites, comme n = 5,6,7 et vous le verrez plus facilement.

— Glen_b -Reinstate Monica

@Glen_b Vous avez raison. Il y a une relation plus évidente lorsque je réduis la taille de l'échantillon. Même dans l'image que j'ai publiée, il semble y avoir un regroupement dans les coins inférieur droit et gauche, qui est présent dans le graphique pour la plus petite taille d'échantillon. Deux suivis. 1) La dépendance s'affaiblit-elle nécessairement parce que les paramètres de population peuvent varier indépendamment les uns des autres? 2) Il semble faux que les statistiques aient une dépendance quelconque, mais elles le font clairement. Qu'est-ce qui cause cela?

— Dave

Une façon d'obtenir un aperçu est d'examiner les caractéristiques spéciales des échantillons qui pénètrent dans ces «cornes» en haut des graphiques de Bruce. Noter en particulier qu'à n = 5, vous obtenez la plus grande variance possible par tous les points proches. à 0 ou 1, mais comme il y a 5 observations, vous avez besoin de 3 à une extrémité et de 2 à l'autre, donc la moyenne doit être proche de 0,4 ou 0,6 mais pas de 0,5 (car mettre un point au milieu fera chuter la variance a Si vous aviez une distribution à queue lourde, la moyenne et la variance seraient les plus affectées par l'observation la plus extrême ... ctd

— Glen_b -Reinstate Monica

ctd ... et dans cette situation, vous obtenez une forte corrélation entre

| \bar{x} - μ |

$|\bar{x}-\mu|$ et

s

$s$ (donnant deux grosses «cornes» de chaque côté du centre de population sur un tracé de sd vs moyenne) - avec l'uniforme, cette corrélation est quelque peu négative. ... Avec de grands échantillons, vous vous dirigerez vers le comportement asymptotique de

(\bar{X}, s_{X}^{2})

$(\bar{X},s^2_X)$ ce qui finit par être conjointement normal.

— Glen_b -Reinstate Monica

Réponses:

La réponse de jbowman (+1) raconte une grande partie de l'histoire. En voici un peu plus.

(a) Pour les données d'une distribution uniforme continue , la moyenne de l'échantillon et l'écart-type ne sont pas corrélés, mais pas indépendants. Les «contours» de l'intrigue soulignent la dépendance. Parmi les distributions continues, l'indépendance ne vaut que pour la normale.

set.seed(1234)
m = 10^5; n = 5
x = runif(m*n);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=".")

b) Uniforme discret. La discrétion permet de trouver une valeur $a$ de la moyenne et d'une valeur $s$ du SD tel que $P(\bar X = a) > 0,\, P(S = s) > 0,$ mais $P(\bar X = a, X = s) = 0.$

set.seed(2019)
m = 20000;  n = 5;  x = sample(1:5, m*n, rep=T)
DAT = matrix(x, nrow=m)
a = rowMeans(DAT)
s = apply(DAT, 1, sd)
plot(a,s, pch=20)

set.seed(1776)
m = 10^5; n = 5
x = round(rnorm(m*n, 10, 1));  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=20)

(d) Conformément à (a), en utilisant la distribution $\mathsf{Beta}(.1,.1),$ au lieu de $\mathsf{Beta}(1,1) \equiv \mathsf{Unif}(0,1).$ met l'accent sur les limites des valeurs possibles de la moyenne de l'échantillon et de l'écart-type. Nous «écrasons» un hypercube à 5 dimensions sur 2 espaces. Les images de certains hyper-bords sont claires. [Réf.: La figure ci-dessous est similaire à la figure 4.6 de Suess & Trumbo (2010), Introduction à la simulation des probabilités et à l'échantillonnage de Gibbs avec R, Springer.]

set.seed(1066)
m = 10^5; n = 5
x = rbeta(m*n, .1, .1);  DAT = matrix(x, nrow=m)
a = rowMeans(DAT);  s = apply(DAT, 1, sd)
plot(a,s, pch=".")

Addendum par commentaire.

— BruceET
source

Utilisez ecdf sur votre dernier. Le nuage de points est sauvage! Quoi qu'il en soit, si une variable uniforme a une dépendance entre

\bar{x}

$\bar{x}$ et

s^{2}

$s^2$ , comment se fait-il que nous obtenions des informations sur l'un en connaissant l'autre, étant donné que nous pouvons étirer la plage ou déplacer le centre à volonté et sans affecter l'autre valeur? Si nous obtenons

\bar{x} = 0

$\bar{x}=0$ , on ne devrait pas savoir si

s^{2} = 1

$s^2 = 1$ ou

s^{2} = 100

$s^2=100$ , semblable à la façon dont nous pouvons étirer la distribution normale sans affecter la moyenne.

— Dave

Le critère de l'indépendance est exigeant. Le manque d'indépendance entre deux VR ne garantit pas qu'il est facile d'obtenir des informations sur l'un, connaissant la valeur de l'autre. // En (d), je ne sais pas ce que ECDF de A ou S révélerait. // Le diagramme de dispersion en (d) montre 6 «points», images en transformation de 32 sommets d'hypercube 5-d avec des multiplicités 1, 5, 10, 10, 5, 1 (de gauche à droite). Les multiplicités expliquent pourquoi les «deux premiers» points sont les plus distincts.

— BruceET

Je ne veux pas dire qu'il est facile d'obtenir des informations sur l'un si vous connaissez l'autre, mais si vous avez l'indépendance, tout ce que vous pouvez faire c'est la distribution marginale. Considérons deux variables normales standard

X

$X$ et

Y

$Y$ avec

ρ = 0.9

$\rho=0.9$ . Si tu le sais

x = 1

$x=1$ tu ne sais pas quoi

y

$y$ est égal, mais vous savez qu'une valeur autour

1

$1$ est plus probable qu'une valeur autour

- 1

$-1$ . Si

ρ = 0

$\rho=0$ , puis une valeur autour

1

$1$ est tout aussi probable qu'une valeur autour

- 1

$-1$ .

— Dave

Mais c'est pour une relation presque linéaire entre deux normales standard. La moyenne et l'écart-type des échantillons ne sont pas si faciles.

— BruceET

@Dave vous avez des informations sur l'un lorsque vous connaissez l'autre. Par exemple, si la variance de l'échantillon est vraiment grande, vous savez que la moyenne de l'échantillon n'est pas vraiment proche de 0,5 (voir l'écart en haut au centre du premier graphique, par exemple)

— Glen_b -Reinstate Monica

Ce n'est pas que la moyenne et la variance sont dépendantes dans le cas de distributions discrètes, c'est que la moyenne et la variance de l' échantillon sont dépendantes étant donné des paramètres de la distribution. La moyenne et la variance elles-mêmes sont des fonctions fixes des paramètres de la distribution, et des concepts tels que "l'indépendance" ne s'appliquent pas à eux. Par conséquent, vous vous posez les mauvaises questions hypothétiques.

Dans le cas de la distribution uniforme discrète, le traçage des résultats de 20 000 $(\bar{x}, s^2)$ paires calculées à partir d'échantillons de 100 uniformes $(1, 2, \dots, 10)$ varie les résultats en:

ce qui montre assez clairement qu'ils ne sont pas indépendants; les valeurs plus élevées de $s^2$ sont situés de manière disproportionnée vers le centre de la gamme de $\bar{x}$ . (Ils ne sont cependant pas corrélés; un simple argument de symétrie devrait nous en convaincre.)

Bien sûr, un exemple ne peut pas prouver la conjecture de Glen dans le post que vous avez lié à l'absence de distribution discrète avec des moyennes et des variances d'échantillons indépendantes!

— jbowman
source

C'est une bonne prise sur la statistique par rapport au paramètre. J'ai fait un montage assez complet.

— Dave