Comment calculer un écart-type pondéré? Dans Excel?


29

Donc, j'ai un ensemble de données de pourcentages comme ceci:

100   /   10000   = 1% (0.01)
2     /     5     = 40% (0.4)
4     /     3     = 133% (1.3) 
1000  /   2000    = 50% (0.5)

Je veux trouver l'écart type des pourcentages, mais pondéré pour leur volume de données. c'est-à-dire que le premier et le dernier point de données devraient dominer le calcul.

Comment je fais ça? Et existe-t-il un moyen simple de le faire dans Excel?


La formule avec (M-1) / M est correcte. Si vous avez un doute, vérifiez-le en définissant tous les poids égaux à 1, et vous obtiendrez la formule classique pour une estimation non biaisée de l'écart-type avec (N-1) dans le dénominateur. Pour whuber: inhabituel ne signifie pas incorrect.

1
La formule avec (M-1) / M n'est pas correcte. Imaginez que vous ajoutez un million de points avec des poids d'un billionième. Vous ne changez pas du tout votre réponse, quels que soient ces poids, mais votre terme devient 1? Absolument pas! Si vous vous souciez de ( M - 1 ) / M 1 , alors vous vous souciez aussi que ce soit juste faux. (M1)/M(M1)/M1
Rex Kerr

Le vote le plus élevé est correct. Veuillez consulter itl.nist.gov/div898/software/dataplot/refman2/ch2/weightsd.pdf
Bo Wang

Je me demande pourquoi vous voulez l'écart-type ici? vous n'avez que numéros! Comment est-ce trop de chiffres? Surtout lorsque les pourcentages sont plus faciles à expliquer et à comprendre. 4
probabilitéislogic

@probabilityislogic c'était un exemple simplifié pour garder la question courte.
Yahel

Réponses:


35

La formule de l'écart-type pondéré est la suivante:

i=1Nwi(xix¯)2(M1)Mi=1Nwi,

N

M

wi

xi

x¯

N'oubliez pas que la formule de la moyenne pondérée est:

x¯=i=1Nwixii=1Nwi.

Number of cases in segmentTotal number of cases

(xix¯)2


2
(M1)/M

4
@Aaron Les poids ne sont pas toujours définis pour résumer à l'unité, comme en témoignent les poids donnés dans cette question!
whuber

2
(M1)/M

1
1(M1)/M

1
@Mikhail Vous avez raison de dire que «inhabituel» et «droit» ont peu à voir l'un avec l'autre. Cependant, des résultats inhabituels exigent implicitement un peu plus de justification, car être inhabituel est un indicateur qu'une erreur peut avoir été commise. Votre argument n'est pas valide: bien que la formule se réduise effectivement à un pour un estimateur sans biais lorsque tous les poids sont égaux, cela n'implique pas que l'estimateur reste sans biais lorsque des poids inégaux sont utilisés. Je n'affirme pas que votre conclusion est erronée, mais seulement que jusqu'à présent aucune justification valable n'a été présentée.
whuber

18

Les formules sont disponibles à divers endroits, dont Wikipedia .

La clé est de remarquer que cela dépend de la signification des poids . En particulier, vous obtiendrez des réponses différentes si les poids sont des fréquences (c'est-à-dire que vous essayez simplement d'éviter de faire la somme totale), si les poids sont en fait la variance de chaque mesure, ou si ce ne sont que des valeurs externes que vous imposer à vos données.

Dans votre cas, il semble superficiellement que les poids soient des fréquences, mais ils ne le sont pas . Vous générez vos données à partir de fréquences, mais ce n'est pas une simple question d'avoir 45 enregistrements de 3 et 15 enregistrements de 4 dans votre ensemble de données. Au lieu de cela, vous devez utiliser la dernière méthode. (En fait, tout cela est des ordures - vous devez vraiment utiliser un modèle plus sophistiqué du processus qui génère ces nombres! Vous n'avez apparemment pas quelque chose qui crache des nombres normalement distribués, donc caractérisant le système avec l'écart-type n'est pas la bonne chose à faire.)

Dans tous les cas, la formule de variance (à partir de laquelle vous calculez l'écart type de manière normale) avec des poids de «fiabilité» est

wi(xix)2wiwi2wi

x=wixi/wi

Vous n'avez pas d'estimation pour les poids, que je suppose que vous voulez considérer comme proportionnels à la fiabilité. Prendre des pourcentages comme vous allez rendre l'analyse difficile même s'ils sont générés par un processus de Bernoulli, car si vous obtenez un score de 20 et 0, vous avez un pourcentage infini. La pondération par l'inverse du SEM est une chose courante et parfois optimale à faire. Vous devriez peut-être utiliser une estimation bayésienne ou un intervalle de score de Wilson .


2
+1. La discussion des différentes significations des poids était ce que je cherchais tout au long de ce fil. Il s'agit d'une contribution importante à toutes les questions de ce site sur les statistiques pondérées. (Cependant, je suis un peu préoccupé par les remarques entre parenthèses concernant les distributions normales et les écarts-types, car ils suggèrent à tort que les écarts-type n'ont aucune utilité en dehors d'un modèle basé sur la normalité.)
whuber

@whuber - Eh bien, le théorème de la limite centrale à la rescousse, bien sûr! Mais pour ce que le PO faisait, essayer de caractériser cet ensemble de nombres avec une moyenne et un écart-type semble extrêmement déconseillé. Et en général, pour de nombreuses utilisations, l'écart-type finit par attirer un faux sentiment de compréhension. Par exemple, si la distribution est tout sauf normale (ou une bonne approximation de celle-ci), s'appuyer sur l'écart-type vous donnera une mauvaise idée de la forme des queues, alors que ce sont exactement ces queues qui vous intéressent probablement le plus en statistiques essai.
Rex Kerr

@RexKerr Nous pouvons difficilement blâmer l'écart-type si les gens y placent des interprétations qui ne sont pas méritées. Mais éloignons-nous de la normalité et considérons la classe beaucoup plus large de distributions unimodales continues et symétriques à variance finie (par exemple). Ensuite, entre 89 et 100 pour cent de la distribution se situe dans les deux écarts-types. C'est souvent assez utile à savoir (et 95% se situe à peu près au milieu, donc ce n'est jamais plus d'environ 7% de réduction); avec de nombreuses distributions courantes, l'aspect de symétrie de chute ne change pas grand-chose (par exemple regardez l'exponentielle, par exemple) .... ctd
Glen_b -Reinstate Monica

ctd ... - ou si nous ne faisons aucune de ces hypothèses, il y a toujours les limites ordinaires de Chebyshev qui disent au moins quelque chose sur les queues et l'écart-type ..
Glen_b -Reinstate Monica

1
@Gabriel - Oui, désolé, j'étais bâclé. (Je suppose que les gens peuvent dire lequel est lequel en regardant.) J'ai corrigé ma description.
Rex Kerr

5
=SQRT(SUM(G7:G16*(H7:H16-(SUMPRODUCT(G7:G16,H7:H16)/SUM(G7:G16)))^2)/
     ((COUNTIFS(G7:G16,"<>0")-1)/COUNTIFS(G7:G16,"<>0")*SUM(G7:G16)))

La colonne Gest des poids, la colonne Hest des valeurs


Utiliser Ctrl + Shift + Enter était un piège pour moi, mais cela semble fonctionner autrement.
philipkd

1

pi=viivi,
vi

μ^=ipixi,
σ^2=ipi(xiμ^)2

0
Option Explicit

Function wsdv(vals As Range, wates As Range)
Dim i, xV, xW, y As Integer
Dim wi, xi, WgtAvg, N
Dim sumProd, SUMwi

    sumProd = 0
    SUMwi = 0
    N = vals.Count  ' number of values to determine W Standard Deviation
    xV = vals.Column  ' Column number of first value element
    xW = wates.Column  ' Column number of first weight element
    y = vals.Row - 1  ' Row number of the values and weights

    WgtAvg = WorksheetFunction.SumProduct(vals, wates) / WorksheetFunction.Sum(wates)

    For i = 1 To N  ' step through the elements, calculating the sum of values and the sumproduct
        wi = ActiveSheet.Cells(i + y, xW).Value  ' (i+y, xW) is the cell containing the weight element
        SUMwi = SUMwi + wi
        xi = ActiveSheet.Cells(i + y, xV).Value  ' (i+y, xV) is the cell containing the value element
        sumProd = sumProd + wi * (xi - WgtAvg) ^ 2
    Next i

    wsdv = (sumProd / SUMwi * N / (N - 1)) ^ (1 / 2)  ' output of weighted standard deviation

End Function

2
Bienvenue sur le site, @ uswer71015. Cela semble être uniquement du code. Pouvez-vous ajouter du texte / une explication sur le fonctionnement du code et comment il répond à la question?
gung - Réintègre Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.