L'écart type peut-il être calculé pour la moyenne harmonique?


12

L'écart type peut-il être calculé pour la moyenne harmonique? Je comprends que l'écart type peut être calculé pour la moyenne arithmétique, mais si vous avez une moyenne harmonique, comment calculez-vous l'écart type ou CV?

Réponses:


13

La moyenne harmonique H de variables aléatoires X1,...,Xn est défini comme

H=11nje=1n1Xje

Prendre des moments des fractions d' une entreprise est en désordre, donc au lieu que je préférerais travailler avec le 1/H . Maintenant

1H=1nje=1n1Xje
.

En utilisant le théorème de la limite centrale, nous obtenons immédiatement que

n(H-1-EX1-1)N(0,VunerX1-1)

si bien sûr VunerX1-1< et Xje sont iid, puisque nous travaillons simplement avec la moyenne arithmétique des variables Ouije=Xje-1 .

Maintenant, en utilisant la méthode delta pour la fonction g(X)=X-1 nous obtenons que

n(H-(EX1-1)-1)N(0,VunerX1-1(EX1-1)4)

Ce résultat est asymptotique, mais pour des applications simples, il peut suffire.

Mise à jour Comme le souligne @whuber à juste titre, les applications simples sont un terme impropre. Le théorème central limite n'est valable que si VunerX1-1 existe, ce qui est une hypothèse assez restrictive.

Mise à jour 2 Si vous avez un échantillon, pour calculer l'écart type, branchez simplement les moments d'échantillonnage dans la formule. Donc , pour l' échantillon X1,...,Xn , l'estimation de la moyenne harmonique est

H^=11nje=1n1Xje

les moments d'échantillonnage EX1-1 et Vuner(X1-1) sont respectivement:

μ^R=1nje=1n1Xjeσ^R2=1nje=1n(1Xje-μR)2

ici R signifie réciproque.

Enfin , la formule approximative de l' écart type de H estH^

sd(H^)=σ^R2nμ^R4

J'ai exécuté quelques simulations Monte-Carlo pour des variables aléatoires uniformément réparties dans l'intervalle [2,3] . Voici le code:

hm <- function(x)1/mean(1/x)
sdhm <- function(x)sqrt((mean(1/x))^(-4)*var(1/x)/length(x))

n<-1000

nn <- c(10,30,50,100,500,1000,5000,10000)

N<-1000

mc<-foreach(n=nn,.combine=rbind) %do% {

    rr <- matrix(runif(n*N,min=2,max=3),nrow=N)

    c(n,mean(apply(rr,1,sdhm)),sd(apply(rr,1,sdhm)),sd(apply(rr,1,hm)))

}
colnames(mc) <- c("n","DeltaSD","sdDeltaSD","trueSD")

> mc
             n     DeltaSD    sdDeltaSD      trueSD
result.1    10 0.089879211 1.528423e-02 0.091677622
result.2    30 0.052870477 4.629262e-03 0.051738941
result.3    50 0.040915607 2.705137e-03 0.040257673
result.4   100 0.029017031 1.407511e-03 0.028284458
result.5   500 0.012959582 2.750145e-04 0.013200580
result.6  1000 0.009139193 1.357630e-04 0.009115592
result.7  5000 0.004094048 2.685633e-05 0.004070593
result.8 10000 0.002894254 1.339128e-05 0.002964259

J'ai simulé des Néchantillons d'échantillon de ntaille. Pour chaque néchantillon de taille, j'ai calculé une estimation de l'estimation standard (fonction sdhm). Ensuite, je compare la moyenne et l'écart-type de ces estimations avec l'écart-type de l'échantillon de la moyenne harmonique estimé pour chaque échantillon, qui devrait être vraisemblablement le véritable écart-type de la moyenne harmonique.

Comme vous pouvez le voir, les résultats sont assez bons, même pour des échantillons de taille modérée. Bien sûr, la distribution uniforme est très bien comportée, il n'est donc pas surprenant que les résultats soient bons. Je vais laisser quelqu'un d'autre enquêter sur le comportement des autres distributions, le code est très facile à adapter.

Remarque: Dans la version précédente de cette réponse, il y avait une erreur dans le résultat de la méthode delta, une variance incorrecte.


2
@mpiktas C'est un bon début et fournit quelques conseils lorsque le CV est bas. Mais même dans des situations pratiques et simples, il n'est pas clair que le CLT s'applique. Je m'attendrais à ce que les réciproques de nombreuses variables n'aient pas de seconde ou même de premier moment fini quand il y a une probabilité appréciable que leurs valeurs soient proches de zéro. Je m'attendrais également à ce que la méthode delta ne s'applique pas en raison des dérivés potentiellement importants de la réciproque proche de zéro. Ainsi, cela pourrait aider à caractériser plus précisément les "applications simples" où votre méthode pourrait fonctionner. BTW, qu'est-ce que "D"?
whuber

@whuber, D est pour la variance, . Par applications simples, j'entendais celles pour lesquelles il existe une variance et une moyenne réciproques. Comme vous le dites pour les variables aléatoires avec une probabilité appréciable que leurs valeurs puissent être proches de zéro, la réciproque peut même ne pas avoir de moyenne. Mais alors la réponse à la question d'origine est non. J'ai supposé que le PO demandait s'il était possible de calculer l'écart type lorsqu'il existe. Ce n'est clairement pas le cas pour beaucoup de variables aléatoires. X=E(X-EX)2
mpiktas

@whuber, BTW par curiosité est une notation assez standard pour moi, mais on pourrait dire que je viens de l'école des probabilités russe. Ce n'est pas si courant dans «l'Occident capitaliste»? :)DX
mpiktas

@mpiktas Je n'ai jamais vu cette notation de variance. Ma première réaction a été que est un opérateur différentiel! Les notations standard sont mnémoniques, comme V a r [ X ] . Vuner[X]
whuber

1
L'article "Inverted Distributions" par EL Lehmann et Juliet Popper Shaffer est une lecture intéressante concernant les distributions de variables aléatoires inversées.
emakalic

2

Ma réponse à une question connexe souligne que la moyenne harmonique d'un ensemble de données positives est une estimation des moindres carrés pondérés (WLS) (avec les poids 1 / x i ). Xje1/XjeVous pouvez donc calculer son erreur standard à l'aide des méthodes WLS. Cela présente certains avantages, notamment la simplicité, la généralité et l'interprétabilité, tout en étant produit automatiquement par tout logiciel statistique qui permet des pondérations dans son calcul de régression.

Le principal inconvénient est que le calcul ne produit pas de bons intervalles de confiance pour des distributions sous-jacentes très asymétriques. Cela risque d'être un problème avec toute méthode à usage général: la moyenne harmonique est sensible à la présence même d'une seule petite valeur dans l'ensemble de données.

20n=12420

Les figures

Voici le Rcode de la simulation et des figures.

k <- 5             # Gamma parameter
n <- 12            # Sample size
hm <- k-1          # True harmonic mean
set.seed(17)

t.crit <- -qt(0.05/2, n-1)
par(mfrow=c(4, 5))
for(i in 1:20) {
  #
  # Generate a random sample.
  #
  x <- rgamma(n, k)
  #
  # Estimate the harmonic mean.
  #
  fit <- lm(x ~ 1, weights=1/x)
  beta <- coef(summary(fit))[1, ]
  message("Harmonic mean estimate is ", signif(beta["Estimate"], 3), 
          " +/- ", signif(beta["Std. Error"], 3))
  #
  # Plot the results.
  #
  covers <- abs(beta["Estimate"] - hm) <= t.crit*beta["Std. Error"]
  plot(ecdf(x), main="Empirical CDF", sub=ifelse(covers, "", "***"))
  rect(beta["Estimate"] - t.crit*beta["Std. Error"], 0, 
       beta["Estimate"] + t.crit*beta["Std. Error"], 1.25, 
       border=NA, col=gray(0.5, alpha=0.10))
  abline(v = hm, col="Blue", lwd=2)
  abline(v = beta["Estimate"], col="Red", lty=3, lwd=2)
}

1

Voici un exemple pour les r.v exponentiels.

n

S=11nje=1nXje

nXjeEXp(λ)n

je=1nXjegunemmune(n,θ)

θ=1λ

1ngunemmune(n,θ)gunemmune(n,θn)

S

Sjenvgunemmune(n,nθ)

La variance (et l'écart type) de ce rv sont bien connus, voir par exemple ici .


3
votre définition de la moyenne harmonique n'est pas d'accord avec wikipedia
mpiktas

L'utilisation d'exponentielles est une bonne approche pour comprendre le problème.
whuber

1
Tout espoir n'est pas entièrement perdu. Si Xi ~ Exp (\ lambda) alors Xi ~ Gamma (1, \ lambda) donc 1 / Xi ~ InvGamma (1, 1 / \ lambda). Utilisez ensuite "V. Witkovsky (2001) Calcul de la distribution d'une combinaison linéaire de variables gamma inversées, Kybernetika 37 (1), 79-90" et voyez jusqu'où vous allez!
tristan

0

On craint que le CLT de mpiktas nécessite une variance limitée sur 1/X. C'est vrai que1/X a des queues folles quand Xa une densité positive autour de zéro. Cependant, dans de nombreuses applications utilisant la moyenne harmonique, X1. Ici,1/X est délimité par 1, vous offrant tous les moments que vous souhaitez!


0

Ce que je suggérerais, c'est d'utiliser la formule suivante comme substitut à l'écart type:

σ=Nje=1N(1X^-1Xje)2,

X^=N1Xje. La bonne chose à propos de cette formule est qu'elle est minimisée lorsqueX^=N1Xje, et il a les mêmes unités que l'écart type (qui sont les mêmes unités que X a).

Ceci est en analogie avec l'écart-type, qui est la valeur qui 1N(X^-Xje)2 prend quand il est minimisé X^. Il est minimisé lorsqueX^ est la moyenne: X^=μ=1NXje.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.