Les 20 sujets ont-ils tous la même taille si l'écart-type de l'échantillon est de 0,0?

L'étude que j'examine rapporte une hauteur moyenne pour 20 sujets de 1,70 mètre avec un écart type de 0,0. Est-ce à dire que les 20 font exactement 1,70 mètre? Ou s'agit-il d'une erreur de signalement?

standard-deviation reporting

— Lee
source

Selon ce fil de biologie SE , l'écart-type de la taille adulte mâle est d'environ mètre et celui des femelles est d'environ mètre. $0.07$ $0.06$

L'arrondi à une décimale donnerait mètre. Le fait que l'écart-type soit signalé comme étant de mètre indique un écart-type inférieur à mètre ... mais un écart-type de, disons, mètre serait toujours cohérent avec le chiffre indiqué car il arrondirait à , mais indiquerait la variation des hauteurs dans l'échantillon n'est que légèrement inférieure à la variabilité que nous observons quotidiennement dans la population générale. $0.1$ $0.0$ $0.05$ $0.048$ $0.0$

Le chiffre est-il bien rapporté? Eh bien, il serait beaucoup plus utile que l'écart-type ait été signalé à deux décimales près, comme l'était la moyenne. Il peut également s'agir d'une simple erreur numérique ou d'arrondi; par exemple, aurait pu être tronqué à plutôt qu'arrondi . Mais serait-il possible que le chiffre se réfère à l'erreur standard à la place? Je vois souvent des chiffres écrits d'une manière qui rend ambigu si un écart-type ou une erreur standard est cité - par exemple, "la moyenne de l'échantillon est de ". $0.07$ $0.0$ $1.62 (\pm 0.06)$

À quel point est-il plausible que l'écart-type correct arrondisse à à une décimale près? Le code R suivant simule un million d'échantillons de taille vingt prélevés sur une population d'écart type (comme cela a été signalé ailleurs pour la taille des femmes), trouve l'écart type pour chaque échantillon, trace un histogramme des résultats et calcule la proportion de échantillons dans lesquels l'écart type observé était inférieur à : $0.0$ $0.06$ $0.05$

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

Par conséquent, un écart-type qui arrondit à n'est pas invraisemblable, se produisant dans environ dix-sept pour cent du temps si les hauteurs sont normalement distribuées avec un véritable écart-type de . $0.0$ $0.06$

Sous réserve de ces hypothèses, nous pouvons également calculer, plutôt que simuler, cette probabilité à environ dix-sept pour cent, comme suit:

P (S^{2} < {0.05}^{2}) = P (\frac{19 S^{2}}{{0.06}^{2}} < \frac{19 \times {0.05}^{2}}{{0.06}^{2}}) = P (\frac{19 S^{2}}{{0.06}^{2}} < 13.194) = 0.1715

$P(S^2 < 0.05^2) = P\left(\frac{19 S^2}{0.06^2} < \frac{19 \times 0.05^2}{0.06^2}\right) = P\left(\frac{19 S^2}{0.06^2} < 13.194\right) = 0.1715$

où nous avons utilisé le fait que suit la distribution du chi carré avec degrés de liberté. Vous pouvez calculer la probabilité dans R en utilisant ; si vous remplacez par conformément aux chiffres publiés pour les écarts-types masculins, la probabilité est réduite à environ quatre pour cent. Comme le souligne @whuber dans les commentaires ci-dessous, ce type de petits «arrondis à zéro» SD est plus susceptible de se produire si le groupe échantillonné était plus homogène que la population générale. Si l'écart-type de la population est d'environ ${(n-1) S^2}/{\sigma^2} = {19 S^2}/{0.06^2}$ $n-1 = 19$ pchisq(q = 19*0.05^2/0.06^2, df = 19) $0.06$ $0.07$ $0.06$ mètres, la probabilité d’obtenir un si petit écart-type de l’échantillon aurait également diminué si la taille de l’échantillon avait été plus grande.

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

— Silverfish
source

+1. Il est également plausible que l'étude porte sur, disons, un groupe de personnes issues d'une population homogène, comme une équipe sportive, un groupe de cheerleading, etc., auquel cas la SD aurait très bien pu être de 0,01 m ou moins.

— whuber

@whuber Nice point! Je me suis demandé dans quelle mesure il pouvait être plausible que le SD arrondisse à 0,00 (c'est-à-dire moins de 0,005) et j'ai été surpris de voir à quel point les conditions sont réellement strictes. Cela n'aurait probablement pas dû l'être, car cela se résume vraiment à l'annulation du ratio. Mais par exemple, si les pom-pom girls ont une population SD = 0,01, alors pchisq(q = 19*0.005^2/0.01^2, df = 19)ne donne qu'une probabilité de 0,04% de l'échantillon SD <0,005. Même SD population = 0,008 donne une probabilité seulement d'environ 0,8%. Mais les écarts-type de population de 0,007, 0,006 et 0,005 donnent des probabilités de 4%, 17% (pas de coïncidence!) Et 54% respectivement

— Silverfish

Je peux imaginer quelques façons d'obtenir très peu de variations. Imaginez une condition qui impose une hauteur minimale ou maximale - par exemple, dans le passé, de nombreuses armées ont imposé une hauteur maximale pour l'équipage de leurs chars, par exemple, ou certains endroits ont eu une hauteur minimale pour la police. Si nous prenons le membre d'équipage le plus grand dans chaque peloton de chars (étant donné une règle de hauteur maximale historique typique, qui est généralement bien en dessous de la hauteur moyenne) et que nous trouvons l'écart-type de l'échantillon de leurs hauteurs, il aura tendance à être très petit, car ces hauteurs auront tendance à être coincé contre la frontière.

— Glen_b -Reinstate Monica

Étant donné qu'aucun langage ou outil n'a été spécifié dans la question, 0,0 n'indique pas nécessairement l' arrondi ou la troncature à une décimale près. 0.0 peut simplement être la façon dont la langue en question affiche 0 sous forme de nombre décimal / virgule flottante (ce que font certaines langues).

— NotThatGuy

C'est presque certainement une erreur de rapport, à moins que les personnes n'aient été sélectionnées pour cette taille.

— Peter Flom
source