L'écart type des données non négatives peut-il dépasser la moyenne?


15

J'ai des maillages 3D triangulés. Les statistiques pour les zones triangulaires sont les suivantes:

  • Min 0,000
  • Max 2341.141
  • Moyenne 56,317
  • Std dev 98.720

Alors, cela signifie-t-il quelque chose de particulièrement utile à propos de l'écart-type ou suggère-t-il qu'il y a des bogues dans son calcul, lorsque les chiffres fonctionnent comme ci-dessus? Les zones sont certainement loin d'être normalement réparties.

Et comme quelqu'un l'a mentionné dans l'une de leurs réponses ci-dessous, ce qui m'a vraiment surpris, c'est que cela n'a pris qu'un écart-type de la moyenne pour que les chiffres deviennent négatifs et donc hors du domaine juridique.

Merci


4
Dans l'ensemble de données {2,2,2,202} l'écart type de l'échantillon est de 100 tandis que la moyenne est de 52 assez proche de ce que vous observez.
whuber

5
Pour un exemple familier (pour certains), le résultat moyen d'une personne jouant au blackjack pendant une heure peut être négatif de 25 $ mais avec un écart-type de disons 100 $ (chiffres pour illustration). Ce grand coefficient de variation permet à quelqu'un de croire plus facilement qu'il est meilleur qu'il ne l'est vraiment.
Michael McGowan

La question de suivi est également assez informative: elle pose des limites à la SD d'un ensemble de (données non négatives), étant donné la moyenne.
whuber

Réponses:


9

Rien n'indique que l'écart type doit être inférieur ou supérieur à la moyenne. Étant donné un ensemble de données, vous pouvez garder la moyenne la même, mais modifier l'écart type à un degré arbitraire en ajoutant / soustrayant un nombre positif de manière appropriée .

En utilisant l'exemple de jeu de données de @ whuber de son commentaire à la question: {2, 2, 2, 202}. Comme indiqué par @whuber: la moyenne est de 52 et l'écart-type est de 100.

Maintenant, perturbez chaque élément des données comme suit: {22, 22, 22, 142}. La moyenne est toujours de 52 mais l'écart-type est de 60.


1
Si vous ajoutez à chaque élément, vous modifiez le paramètre d' emplacement , c'est-à-dire la moyenne. Vous modifiez la dispersion (c'est-à-dire l'écart type) en multipliant avec un facteur d'échelle (à condition que votre moyenne soit nulle).
Dirk Eddelbuettel

@DirkEddelbuettel Vous avez raison. J'ai corrigé la réponse et fourni un exemple de clarté.
varty

2
Je ne suis pas l'exemple. Le nouvel ensemble de données n'est clairement pas dérivé de l'original en "ajoutant ou en soustrayant un nombre positif" de chacune des valeurs d'origine.
whuber

3
Je ne peux pas le modifier car je ne sais pas ce que vous essayez de dire. Si vous pouvez ajouter arbitrairement des valeurs distinctes à chacun des nombres d'un ensemble de données, vous changez simplement un ensemble de valeurs en un ensemble complètement différent de n valeurs. Je ne vois pas en quoi cela est pertinent pour la question ni même pour votre premier paragraphe. Je pense que quiconque admettrait que de tels changements peuvent modifier la moyenne et l'écart-type, mais cela ne nous dit pas pourquoi l'écart-type d'un ensemble de données non négatives peut être un multiple positif de sa moyenne. nn
whuber

2
Vous avez raison: l'affirmation citée est la mienne et n'apparaît pas dans votre réponse. (Il se trouve que cela est correct et pertinent. :-) Un point que j'essaie de faire passer est que la simple possibilité de changer la SD tout en gardant la moyenne la même ne répond pas à la question. Dans quelle mesure la SD peut-elle être modifiée (tout en gardant toutes les données non négatives)? L'autre point que j'ai essayé de faire est que votre exemple n'illustre pas un processus général et prévisible de telles modifications des données. Cela le rend arbitraire, ce qui n'est pas d'une grande utilité.
whuber

9

Bien sûr, ce sont des paramètres indépendants. Vous pouvez définir des explorations simples dans R (ou un autre outil que vous préférez).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

De même, vous standardisez les données que vous regardez en soustrayant la moyenne et en divisant par l'écart-type.

Edit Et suivant l'idée de @ whuber, voici une infinité d'ensembles de données qui se rapprochent de vos quatre mesures:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Je ne suis pas sûr de comprendre votre point. Ils ne sont pas exactement indépendants car on pourrait changer la moyenne en perturbant un point de données et ainsi changer également l'écart type. Ai-je mal interprété quelque chose?
varty

Notant que les zones triangulaires ne peuvent pas être négatives (comme le confirme la valeur minimale citée dans la question), on peut espérer un exemple composé uniquement de nombres non négatifs.
whuber

(+1) Re the edit: Essayez d'utiliser 536 réplications de 52.15 :-).
whuber

Nice on re 536 reps. Aurait dû faire une recherche binaire :)
Dirk Eddelbuettel

@Dirk "ce sont des paramètres indépendants", considérons le cas où est un bernouilli. la variance et la moyenne ne sont pas indépendantes: v a r ( X ) = p ( 1 - pX . Considérons une variable aléatoire 100 > X > 0 ,variance maximale possible est ( 50 ) 2 maintenant si vous forcez la moyenne égale à un (soitniveau inférieur à 50 ) la variance maximale ne peut pas être supérieure à 99 / 100 * ( 1 ) 2 + (var(X)=p(1p)100>X>0(50)250 . Il y a plus d'exemples de variables limitées dans la nature que les gaussiens? 99/100(1)2+(1/100)992
Robin Girard,

7

Je ne sais pas pourquoi @Andy est surpris de ce résultat, mais je sais qu'il n'est pas seul. Je ne suis pas non plus sûr de ce que la normalité des données a à voir avec le fait que le sd est supérieur à la moyenne. Il est assez simple de générer un ensemble de données qui est normalement distribué là où c'est le cas; en effet, la normale standard a une moyenne de 0, sd de 1. Il serait difficile d'obtenir un ensemble de données de distribution normale de toutes les valeurs positives avec sd> moyenne; en effet, cela ne devrait pas être possible (mais cela dépend de la taille de l'échantillon et du test de normalité que vous utilisez ... avec un très petit échantillon, des choses étranges se produisent)

Cependant, une fois que vous supprimez la stipulation de la normalité, comme @Andy l'a fait, il n'y a aucune raison pour que sd soit plus grand ou plus petit que la moyenne, même pour toutes les valeurs positives. Une seule valeur aberrante fera cela. par exemple

x <- runif (100, 1, 200) x <- c (x, 2000)

donne une moyenne de 113 et un sd de 198 (selon la semence, bien sûr).

Mais une question plus importante est de savoir pourquoi cela surprend les gens.

Je n'enseigne pas les statistiques, mais je me demande ce que la façon dont les statistiques sont enseignées rend cette notion commune.


Je n'ai jamais étudié les statistiques, juste quelques unités de mathématiques techniques et c'était il y a trente ans. D'autres personnes au travail, qui, à mon avis, comprenaient mieux le domaine, ont parlé de représenter les mauvaises données par "le nombre de développeurs standard loin de la moyenne". Donc, il s'agit plus de "comment les dev std sont couramment mentionnés" que "enseignés" :-)
Andy Dent

@Andy ayant un grand nombre de std loin de la moyenne signifie simplement que la variable n'est pas significativement différente de zéro. Ensuite, cela dépend du contexte (quelle est la signification de la variable aléatoire) mais dans certains cas, vous voudrez peut-être les supprimer?
Robin Girard,

@Peter voir mon commentaire à Dirk, cela pourrait expliquer la "surprise" dans un certain contexte. En fait, j'enseigne la statistique depuis un certain temps et je n'ai jamais vu la surprise dont vous parlez. Quoi qu'il en soit, je préfère les étudiants qui sont surpris par tout ce que je suis sûr que c'est une bonne position épistémologique (mieux que d'évanouir la position absolument sans surprise :)).
Robin Girard,

@AndyDent «mauvaises» données, pour moi, signifie des données incorrectement enregistrées. Les données qui sont loin de la moyenne sont des valeurs aberrantes. Par exemple, supposons que vous mesurez la hauteur des gens. Si vous me mesurez et enregistrez ma taille à 7'5 'au lieu de 5'7, ce sont de mauvaises données. Si vous mesurez Yao Ming et enregistrez sa taille à 7'5 ", c'est une donnée aberrante mais pas mauvaise. Malgré le fait qu'elle soit très loin de la moyenne (quelque chose comme 6 sds)
Peter Flom - Rétablir Monica

@Peter Florn, Dans notre cas, nous avons des valeurs aberrantes dont nous voulons nous débarrasser car elles représentent des triangles qui causeront des problèmes algorithmiques lors du traitement du maillage. Elles peuvent même être des "mauvaises données" dans votre sens si elles ont été créées par des appareils de numérisation défectueux ou une conversion à partir d'autres formats :-) D'autres formes peuvent avoir des valeurs aberrantes qui sont légitimement loin de la moyenne mais ne représentent pas un problème. L'une des choses les plus intéressantes à propos de ces données est que nous avons des «mauvaises données» aux deux extrémités, mais les petites ne sont pas loin de la moyenne.
Andy Dent

6

En ajoutant simplement un point générique qui, du point de vue du calcul, et x 2 f ( x ) d x sont liés par l'inégalité de Jensen , en supposant que les deux intégrales existent, x 2 f ( x ) d x {

xf(x)dx
x2f(x)dx
Compte tenu de cette inégalité générale, rien n'empêche la variance de devenir arbitrairement grande. Observez ladistribution t de Studentavec ν degrés de liberté, X T ( ν , μ , σ ) et prenez Y = | X | dont le deuxième moment est le même que le deuxième moment de X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X lorsqueν>2. Il va donc à l'infini lorsqueνdescend à2, tandis que la moyenne deYreste finie tant queν>1.
E[|X|2]=νν2σ2+μ2,
ν>2ν2Yν>1

1
Veuillez noter la restriction explicite aux valeurs non négatives dans la question.
whuber

L'exemple de Student se traduit facilement en l'exemple de distribution en valeur absolue d'un étudiant ...
Xi'an

1
Mais cela change la moyenne, bien sûr :-). La question concerne la relation entre le SD et la moyenne (voir son titre). Je ne dis pas que vous vous trompez; Je suggère simplement (implicitement) que votre réponse pourrait, avec peu de travail, répondre plus directement à la question.
whuber

@whuber: ok, j'ai édité ce qui précède pour considérer la valeur absolue (j'ai aussi dérivé la moyenne de la valeur absolue mais <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> c'est plutôt disgracieux </ a> ...)
Xi'an

3

Peut-être que l'OP est surpris que la moyenne - 1 SD soit un nombre négatif (surtout lorsque le minimum est 0).

Voici deux exemples qui peuvent clarifier.

Supposons que vous ayez une classe de 20 élèves de première année, où 18 ont 6 ans, 1 est 5 et 1 est 7. Ajoutez maintenant l'enseignant de 49 ans. L'âge moyen est de 8,0, tandis que l'écart-type est de 9,402.

Vous pensez peut-être: une fourchette d'écart type pour cette classe va de -1,402 à 17,402 ans. Vous pourriez être surpris que le SD inclut un âge négatif, ce qui semble déraisonnable.

Vous n'avez pas à vous soucier de l'âge négatif (ou des tracés 3D s'étendant moins que le minimum de 0,0). Intuitivement, vous avez toujours environ les deux tiers des données à moins de 1 SD de la moyenne. (Vous avez en fait 95% des données à moins de 2 SD de la moyenne.)

Lorsque les données prennent une distribution non normale, vous verrez des résultats surprenants comme celui-ci.

Deuxième exemple. Dans son livre, Fooled by Randomness , Nassim Taleb met en place l'expérience de pensée d'un archer aux yeux bandés tirant sur un mur de longueur inifinte. L'archer peut tirer entre +90 degrés et -90 degrés.

De temps en temps, l'archer tire la flèche parallèlement au mur, et elle ne frappera jamais. Considérez dans quelle mesure la flèche manque la cible lors de la distribution des nombres. L'écart type pour ce scénario serait inifinte.


La règle concernant environ 2/3 des données à 1 ET près de la moyenne est pour les données normales. Mais les données de la classe sont clairement non normales (même si elles réussissent un certain test de normalité en raison de la petite taille de l'échantillon). L'exemple de Taleb est terrible. C'est un exemple de mauvaise opérationnalisation d'une variable. Pris tel quel, la moyenne et l'écart-type seraient infinis. Mais c'est absurde. "Jusqu'où la flèche manque" - pour moi, c'est une distance. La flèche, quelle que soit la façon dont elle est tirée, atterrira quelque part. Mesurez la distance de là à la cible. Plus d'infini.
Peter Flom - Réintègre Monica

1
Oui, l'OP a été suffisamment surpris la première fois que j'ai vu la moyenne - 1 SD est devenu négatif que j'ai écrit un tout nouvel ensemble de tests unitaires en utilisant les données d'Excel pour confirmer au moins que mon algorithme calculait les mêmes valeurs. Parce qu'Excel doit simplement être une source faisant autorité, non?
Andy Dent

@Peter La règle des 2/3 (qui fait partie d'une règle de 68-95-99,7%) est bonne pour une grande variété d'ensembles de données, beaucoup d'entre eux ne sont pas normaux et même pour ceux modérément asymétriques. (La règle est assez bonne pour les ensembles de données symétriques.) La non-finitude de la SD et de la moyenne n'est pas un "non-sens". L'exemple de Taleb est l'une des rares situations non artificielles où la distribution de Cauchy régit clairement le processus de génération de données. L'infinité du SD ne tient pas à la possibilité de rater le mur mais à la répartition des coups réels.
whuber

1
@whuber J'étais au courant de votre premier point, qui est bon. Je ne suis pas d'accord sur votre deuxième point concernant Taleb. Cela me semble être un autre exemple artificiel.
Peter Flom - Réintègre Monica

3

X

FX(X)=βαΓ(α)Xα-1e-βXje(0,)(X),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVuner[X]=α/β2=sXmsRm>sm<s
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

X¯σX[0,c]nn-1

σXX¯(c-X¯)c2
et donc si X¯>c/2, nous pouvons être sûrs que σXsera plus petit. En effet, depuisσX=c/2 uniquement pour une distribution extrême (la moitié des données ont une valeur 0 et l'autre moitié de la valeur c), σX<X¯ peut tenir dans certains cas lorsque X¯<c/2ainsi que. Si les données sont des mesures d'une certaine quantité physique non négative (par exemple la surface) et ont une distribution empirique qui correspond bien à une distribution normale, alorsσX sera considérablement plus petit que min{X¯,c-X¯} puisque la distribution normale ajustée doit attribuer une probabilité négligeable aux événements {X<0} et {X>c}.

4
Je ne pense pas que la question soit de savoir si l'ensemble de données est normal; sa non-normalité est stipulée. La question porte sur la possibilité d'une erreur dans le calcul de l'écart-type, car le PO s'étonne que même dans cet ensemble de données manifestement non normal, l'écart-type soit beaucoup plus grand que la moyenne. Si aucune erreur n'a été commise, que peut-on conclure d'un si grand coefficient de variation ?
whuber

9
Toute réponse ou commentaire qui prétend que la moyenne et le sd d'un ensemble de données ne sont pas liés est manifestement incorrect, car les deux sont des fonctions des mêmes données et les deux changent chaque fois qu'une seule des valeurs de données est modifiée. Cette remarque porte certains échos d'une déclaration similaire qui est vraie (mais pas terriblement pertinente pour la question actuelle); à savoir que la moyenne de l'échantillon et l'échantillon sd des données tirées indépendamment d'une distribution normale sont indépendants (au sens probabiliste).
whuber

1

Ce que vous semblez avoir implicitement à l'esprit, c'est un intervalle de prédiction qui limiterait l'occurrence de nouvelles observations. Le hic, c'est: vous devez postuler une distribution statistique conforme au fait que vos observations (zones triangulaires) doivent rester non négatives. Normal n'aidera pas, mais log-normal pourrait être très bien. En termes pratiques, prenez le journal des zones observées, calculez la moyenne et l'écart-type, formez un intervalle de prédiction en utilisant la distribution normale, et enfin évaluez l'exponentielle pour les limites inférieure et supérieure - l'intervalle de prédiction transformé ne sera pas symétrique autour la moyenne et est garanti de ne pas descendre en dessous de zéro. C'est ce que je pense que le PO avait réellement en tête.


0

Felipe Nievinski pointe ici un vrai problème. Cela n'a aucun sens de parler en termes de distribution normale lorsque la distribution n'est clairement pas une distribution normale. Les valeurs positives avec une moyenne et un écart-type relativement faibles ne peuvent pas avoir une distribution normale. La tâche consiste donc à déterminer quel type de distribution convient à la situation. Le message d'origine suggère qu'une distribution normale (ou quelque chose du genre) était clairement à l'esprit. Sinon, les chiffres négatifs ne se présenteraient pas. Log normal, Rayleigh, Weibull me viennent à l'esprit ... Je ne sais pas mais je me demande ce qui pourrait être le mieux dans un cas comme celui-ci?

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.