Valeur maximale du coefficient de variation pour l'ensemble de données borné

17

Au cours de la discussion qui a suivi une question récente sur la question de savoir si l'écart-type peut dépasser la moyenne, une question a été posée brièvement mais sans réponse complète. Je le pose donc ici.

Considérons un ensemble de $n$ nombres non négatifs où pour . Il n'est pas nécessaire que le soit distinct, c'est-à-dire que l'ensemble puisse être un multiset. La moyenne et la variance de l'ensemble sont définies comme et l'écart-type est . Notez que l'ensemble de nombres n'est pas un échantillon d'une population et nous n'estimons pas une moyenne de population ou une variance de population. La question est alors: $x_i$ $0 \leq x_i \leq c$ $1 \leq i \leq n$ $x_i$

\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}, σ_{x}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = (\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - {\bar{x}}^{2}

$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2$

σ_{x}

$\sigma_x$

Quelle est la valeur maximale de , le coefficient de variation, sur tous les choix des dans l'intervalle ? $\dfrac{\sigma_x}{\bar{x}}$ $x_i$ $[0,c]$

La valeur maximale que je peux trouver pour est qui est atteinte lorsque des ont la valeur et le reste (aberrant) a valeur , donnant Mais cela ne dépend pas du tout de , et je me demande si des valeurs plus grandes, éventuellement dépendantes de et de , peuvent être atteintes. $\frac{\sigma_x}{\bar{x}}$ $\sqrt{n-1}$ $n-1$ $x_i$ $0$ $x_i$ $c$

\bar{x} = \frac{c}{n}, \frac{1}{n} \sum x_{i}^{2} = \frac{c^{2}}{n} \Rightarrow σ_{x} = \sqrt{\frac{c^{2}}{n} - \frac{c^{2}}{n^{2}}} = \frac{c}{n} \sqrt{n - 1} .

$\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.$

c

$c$

n

$n$

c

$c$

Des idées? Je suis sûr que cette question a déjà été étudiée dans la littérature statistique, et donc les références, sinon les résultats réels, seraient très appréciées.

— Dilip Sarwate
source

Je pense que vous avez raison de dire qu'il s'agit de la valeur la plus élevée possible, et je suis également surpris que n'ait pas d'importance. Cool.

c

$c$

— Peter Flom - Réintègre Monica

7

c

$c$ ne doit pas affecter le résultat car

\frac{σ_{x}}{\bar{x}}

$\frac{\sigma_x}{\bar{x}}$ ne change pas si toutes les valeurs sont multipliées par une constante positive

k

$k$ .

— Henry

15

La géométrie donne un aperçu et les inégalités classiques permettent un accès facile à la rigueur.

Solution géométrique

Nous savons, à partir de la géométrie des moindres carrés , que $\mathbf{\bar{x}} = (\bar{x}, \bar{x}, \ldots, \bar{x})$ est la projection orthogonale du vecteur de données $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ sur le sous-espace linéaire généré par le vecteur constant $(1,1,\ldots,1)$ et que $\sigma_x$ est directement proportionnelle à la distance (euclidienne) entre et Les contraintes de non-négativité sont linéaires et la distance est une fonction convexe, d'où les extrêmes de distance doivent être atteints aux bords du cône déterminés par les contraintes. Ce cône est l'orthant positif dans et ses bords sont les axes de coordonnées, d'où il suit immédiatement que tous les sauf un doivent être nuls aux distances maximales. Pour un tel ensemble de données, un calcul direct (simple) montre $\mathbf{x}$ $\mathbf{\bar{x}}.$ $\mathbb{R}^n$ $x_i$ $\sigma_x/\bar{x}=\sqrt{n}.$

Solution exploitant les inégalités classiques

est optimisé simultanément avec toute transformation monotone de celui-ci. À la lumière de cela, maximisons $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} = \frac{1}{n} (\frac{n - 1}{n} {(\frac{σ_{x}}{\bar{x}})}^{2} + 1) = f (\frac{σ_{x}}{\bar{x}}) .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} = \frac{1}{n}\left(\frac{n-1}{n}\left(\frac{\sigma_x}{\bar{x}}\right)^2+1\right) = f\left(\frac{\sigma_x}{\bar{x}}\right).$

(La formule de peut sembler mystérieuse jusqu'à ce que vous vous compte qu'elle enregistre simplement les étapes à suivre pour manipuler algébriquement pour le mettre sous une forme simple, qui est du côté gauche.) $f$ $\sigma_x/\bar{x}$

Un moyen simple commence par l'inégalité de Holder ,

x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2} \leq (x_{1} + x_{2} + \dots + x_{n}) max ({x_{i}}) .

$x_1^2+x_2^2+\ldots+x_n^2 \le \left(x_1+x_2+\ldots+x_n\right)\max(\{x_i\}).$

(Cela n'a besoin d'aucune preuve spéciale dans ce contexte simple: il suffit de remplacer un facteur de chaque terme par la composante maximale : évidemment la somme des carrés ne diminuera pas. le terme commun donne le côté droit de l'inégalité.) $x_i^2 = x_i \times x_i$ $\max(\{x_i\})$ $\max(\{x_i\})$

Because the $x_i$ are not all $0$ (that would leave $\sigma_x/\bar{x}$ undefined), division by the square of their sum is valid and gives the equivalent inequality

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} \leq \frac{max ({x_{i}})}{x_{1} + x_{2} + \dots + x_{n}} .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} \le \frac{\max(\{x_i\})}{x_1+x_2+\ldots+x_n}.$

Because the denominator cannot be less than the numerator (which itself is just one of the terms in the denominator), the right hand side is dominated by the value $1$ , which is achieved only when all but one of the $x_i$ equal $0$ . Whence

\frac{σ_{x}}{\bar{x}} \leq f^{- 1} (1) = \sqrt{(1 \times (n - 1)) \frac{n}{n - 1}} = \sqrt{n} .

$\frac{\sigma_x}{\bar{x}} \le f^{-1}\left(1\right) = \sqrt{\left(1 \times (n - 1)\right)\frac{n}{n-1}}=\sqrt{n}.$

Alternative approach

Because the $x_i$ are nonnegative and cannot sum to $0$ , the values $p(i) = x_i/(x_1+x_2+\ldots+x_n)$ determine a probability distribution $F$ on $\{1,2,\ldots,n\}$ . Writing $s$ for the sum of the $x_i$ , we recognize

\begin{aligned} \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} & = \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{s^{2}} \\ = (\frac{x_{1}}{s}) (\frac{x_{1}}{s}) + (\frac{x_{2}}{s}) (\frac{x_{2}}{s}) + \dots + (\frac{x_{n}}{s}) (\frac{x_{n}}{s}) \\ = p_{1} p_{1} + p_{2} p_{2} + \dots + p_{n} p_{n} \\ = E_{F} [p] . \end{aligned}

$\eqalign{ \frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} &= \frac{x_1^2+x_2^2+\ldots+x_n^2}{s^2} \\ &= \left(\frac{x_1}{s}\right)\left(\frac{x_1}{s}\right)+\left(\frac{x_2}{s}\right)\left(\frac{x_2}{s}\right) + \ldots + \left(\frac{x_n}{s}\right)\left(\frac{x_n}{s}\right)\\ &= p_1 p_1 + p_2 p_2 + \ldots + p_n p_n\\ &= \mathbb{E}_F[p]. }$

The axiomatic fact that no probability can exceed $1$ implies this expectation cannot exceed $1$ , either, but it's easy to make it equal to $1$ by setting all but one of the $p_i$ equal to $0$ and therefore exactly one of the $x_i$ is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.

— whuber
source

Thanks for a detailed answer from which I have learned a lot! I assume that the difference between the

\sqrt{n}

$\sqrt{n}$ in your answer and the

\sqrt{n - 1}

$\sqrt{n-1}$ that I obtained (and Henry confirmed) is due to the fact that you are using

σ_{x} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\sigma_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ as the definition of

σ_{x}

$\sigma_x$ while I used

σ_{x} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} ?

$\sigma_x = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}?$

— Dilip Sarwate

1

Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined

σ_{x}

$\sigma_x$ (which I intended to do but forgot).

— whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all $x_i \ge 0$ , then the coeﬃcient of variation cannot exceed $\sqrt{n − 1}$ . This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.

— Nick Cox
source

8

With two numbers $x_i \ge x_j$ , some $\delta \gt 0$ and any $\mu$ :

(x_{i} + δ - μ)^{2} + (x_{j} - δ - μ)^{2} - (x_{i} - μ)^{2} - (x_{j} - μ)^{2} = 2 δ (x_{i} - x_{j} + δ) > 0.

$(x_i+\delta - \mu)^2 + (x_j - \delta - \mu)^2 - (x_i - \mu)^2 - (x_j - \mu)^2 = 2\delta(x_i - x_j +\delta) \gt 0.$

Applying this to $n$ non-negative datapoints, this means that unless all but one of the $n$ numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: $\sqrt{n-1}$ .

$c$ should not affect the result as $\frac{\sigma_x}{\bar{x}}$ does not change if all the values are multiplied by any positive constant $k$ (as I said in my comment).

— Henry
source