Valeur qui augmente l'écart type


12

Je suis perplexe devant la déclaration suivante:

"Afin d'augmenter l'écart-type d'un ensemble de nombres, vous devez ajouter une valeur qui est plus d'un écart-type de la moyenne"

Quelle est la preuve de cela? Je sais bien sûr comment nous définissons l'écart type, mais cette partie me semble d'une certaine manière manquer. Des commentaires?


1
Avez-vous essayé de déterminer l'algèbre impliquée?
Alecos Papadopoulos

Oui j'ai. J'ai soustrait la variance d'échantillon de n valeurs de la variance de n + 1 valeurs et j'ai exigé que la différence soit supérieure à zéro. Pourtant, je n'arrive pas à le comprendre.
JohnK

3
L'un des moyens les plus simples consiste à différencier l'algorithme de Welford par rapport à la nouvelle valeur , puis à l'intégrer pour montrer que si l'introduction de augmente la variance, alors où est la moyenne des premières valeurs et est leur estimation de variance. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber

D'accord, mais cela peut-il être montré avec une simple algèbre? Ma connaissance des statistiques n'est pas très avancée.
JohnK

@JohnK, pouvez-vous s'il vous plaît partager la source du devis?
Pe Dro

Réponses:


20

Pour tout nombre y 1 , y 2 , , y N avec moyenne ˉ y = 1Ny1,y2,,yN, la variance est donnée par σ 2y¯=1Ni=1Nyi Application de(1)à l'ensemble donné dennombresx1,x2,xn que nous considérons par commodité dans l'exposition comme ayant une moyenneˉx=0, nous avons que σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0 Si nous ajoutons maintenant une nouvelle observationxn+1à cet ensemble de données, alors la nouvelle moyenne de l'ensemble de données est 1
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
xn+1 alors que la nouvelle variance est σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
Alors| xn+1| doit être plus grand queσ
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1| ou, plus généralement,xn+1doit différer deplus deσde la moyenneˉxde l'ensemble de données d'origineσ1+1nxn+1x¯ , afin que l'ensemble de données augmenté présente une variance plus importante que l'ensemble de données d'origine. Voir aussi la réponse de Ray Koopman qui souligne que la nouvelle variance est supérieure, égale ou inférieure à la variance d'origine selonxn+1 diffère de la moyenne de plus, exactement ou moins queσσ1+1nxn+1 .σ1+1n

5
+1 Enfin, quelqu'un a raison ... ;-) La déclaration à prouver est correcte; ce n'est tout simplement pas serré. Par ailleurs, vous pouvez également choisir vos unités de mesure pour faire , ce qui simplifie encore le calcul, le réduisant à environ deux lignes. σ2=1
whuber

Je vous suggère d'utiliser S au lieu de sigma dans le premier ensemble d'équations et merci pour la dérivation. C'était bon à savoir :)
Theoden

3

La déclaration déroutante donne une condition nécessaire mais insuffisante pour que l'écart-type augmente. Si l'ancienne taille d'échantillon est , l'ancienne moyenne est m , l'ancien écart-type est s et un nouveau point x est ajouté aux données, alors le nouvel écart-type sera inférieur, égal ou supérieur à s selon comme | x - m | est inférieur, égal ou supérieur à s nmsxs|xm| .s1+1/n


1
Avez-vous une preuve à portée de main?
JohnK

2

En laissant de côté l'algèbre (qui fonctionne aussi), pensez-y de cette façon: l'écart-type est la racine carrée de la variance. La variance est la moyenne des distances au carré de la moyenne. Si nous ajoutons une valeur plus proche de la moyenne que celle-ci, la variance diminuera. Si nous ajoutons une valeur plus éloignée de la moyenne que celle-ci, elle augmentera.

Cela est vrai pour toute moyenne de valeurs non négatives. Si vous ajoutez une valeur supérieure à la moyenne, la moyenne augmente. Si vous ajoutez une valeur inférieure, elle diminue.


J'aimerais aussi voir une preuve rigoureuse. Bien que je comprenne le principe, je suis intrigué par le fait que la valeur doit être au moins à 1 écart de la moyenne. Pourquoi précisément 1?
JohnK

Je ne vois pas ce qui prête à confusion. La variance est la moyenne. Si vous ajoutez quelque chose de supérieur à la moyenne (c'est-à-dire plus de 1 sd), cela augmente. Mais je ne suis pas du genre pour les preuves formelles
Peter Flom - Réintègre Monica

Elle pourrait être supérieure à la moyenne de 0,2 écart-type. Pourquoi n'augmenterait-il pas alors?
JohnK

Non, pas plus grand que la moyenne des données, plus grand que la variance, qui est la moyenne des distances au carré.
Peter Flom - Réintégrer Monica

4
C'est déroutant car l'inclusion d'une nouvelle valeur modifie la moyenne, donc tous les résidus changent. Il est concevable que même lorsque la nouvelle valeur est loin de l'ancienne moyenne, sa contribution au SD pourrait être compensée en réduisant la somme des carrés des résidus des autres valeurs. C'est l'une des nombreuses raisons pour lesquelles des preuves rigoureuses sont utiles: elles fournissent non seulement la sécurité de nos connaissances, mais également des informations (et même de nouvelles informations). Par exemple, la preuve montrera que vous devez ajouter une nouvelle valeur qui est strictement plus éloignée d'une SD de la moyenne afin d'augmenter la SD.
whuber

2

Z=xμσ.
xZx
σ=i=1NZi2N1
σZN

Un nombre dont la valeur absolue est inférieure à 1, au carré, il sera également inférieur à 1 en abs. valeur. Pourtant, ce que je ne comprends pas, c'est que même si Z_N tombe dans cette catégorie, nous ajoutons une valeur positive à σ, alors ne devrait-il pas augmenter?
JohnK

ZN+1

1
NσZi2

Exactement ce que j'essayais d'exprimer!
wcampbell

ZiN1
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.