Estimation des paramètres d'une distribution normale: médiane au lieu de moyenne?

L'approche courante pour estimer les paramètres d'une distribution normale consiste à utiliser la moyenne et l'écart-type / variance de l'échantillon.

Cependant, s'il y a des valeurs aberrantes, la médiane et l'écart médian par rapport à la médiane devraient être beaucoup plus robustes, non?

Sur certains ensembles de données que j'ai essayés, la distribution normale estimée par semble produire beaucoup meilleur ajustement que le classique utilisant la déviation moyenne et RMS. $\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|)$ $\mathcal{N}(\hat\mu, \hat\sigma)$

Y a-t-il une raison de ne pas utiliser la médiane si vous supposez qu'il y a des valeurs aberrantes dans l'ensemble de données? Connaissez-vous une référence pour cette approche? Une recherche rapide sur Google ne m'a pas trouvé de résultats utiles qui discutent des avantages de l'utilisation des médianes ici (mais évidemment, la "médiane d'estimation des paramètres de distribution normale" n'est pas un ensemble très spécifique de termes de recherche).

L'écart médian, est-il biaisé? Dois-je le multiplier par pour réduire le biais? $\frac{n-1}{n}$

Connaissez-vous des approches d'estimation de paramètres robustes similaires pour d'autres distributions telles que la distribution gamma ou la distribution gaussienne modifiée exponentiellement (qui a besoin d'asymétrie dans l'estimation des paramètres, et les valeurs aberrantes gâchent vraiment cette valeur)?

— Erich Schubert
source

Si vous avez des valeurs aberrantes, il se peut que votre distribution ne soit pas vraiment gaussienne normale. Cela ne répond pas à votre question, bien sûr, mais, à mon avis, c'est une possibilité qu'il faut toujours envisager.

— sds

Je n'ai pas de distribution mathématique simple, propre. J'ai de vraies données, qui sont de nature désordonnée. Aucune distribution ne sera parfaite, car vous ne pouvez plus gérer la situation analytiquement. Et les valeurs aberrantes sont en fait mon intérêt. :-)

— Erich Schubert

Réponses:

L'observation selon laquelle dans un exemple impliquant des données tirées d'une distribution gaussienne contaminée, vous obtiendriez de meilleures estimations des paramètres décrivant la majeure partie des données en utilisant le au lieu deoù est: $\text{mad}$ $\text{med}|x-\text{med}(x)|$ $\text{mad}(x)$

mad = 1.4826 \times med | x - med (x) |

$\text{mad}=1.4826\times\text{med}|x-\text{med}(x)|$

--où, est un facteur de cohérence conçu pour garantir que lorsque n'est pas contaminé - a été initialement créé par Gauss (Walker, H. (1931)). $(\Phi^{-1}(0.75))^{-1}=1.4826$

E (mad (x)^{2}) = Var (x)

$\text{E}(\text{mad}(x)^2)=\text{Var}(x)$

x

$x$

Je ne vois aucune raison de ne pas utiliser le au lieu de la moyenne de l'échantillon dans ce cas. La moindre efficacité (au gaussien!) Du peut être une raison pour ne pas utiliser le dans votre exemple. Cependant, il existe des alternatives tout aussi robustes et très efficaces au . L'un d'eux est le $\text{med}$ $\text{mad}$ $\text{mad}$ $\text{mad}$ $Q_n$ . Cet estimateur présente de nombreux autres avantages à côté. Il est également très insensible aux valeurs aberrantes (en fait presque aussi insensible que les fous). Contrairement au fou, il ne se construit pas autour d'une estimation de localisation et ne suppose pas que la distribution de la partie non contaminée des données soit symétrique. Comme le fou, il est basé sur des statistiques de commande, de sorte qu'il est toujours bien défini même lorsque la distribution sous-jacente de votre échantillon n'a pas de moments. Comme le fou, il a une forme explicite simple. Plus encore que pour les fous, je ne vois aucune raison d'utiliser l'écart type d'échantillon au lieu du dans l'exemple que vous décrivez (voir Rousseeuw et Croux 1993 pour plus d'informations sur le ). $Q_n$ $Q_n$

Quant à votre dernière question, sur le cas spécifique où , alors $x\sim\Gamma(\nu,\lambda)$

med (x) \approx λ (ν - 1 / 3)

$\text{med}(x)\approx\lambda(\nu-1/3)$

mad (x) \approx λ \sqrt{ν}

$\text{mad}(x)\approx\lambda\sqrt{\nu}$

(dans les deux cas, les approximations deviennent bonnes quand ) de sorte que $\nu>1.5$

\hat{ν} = {(\frac{med (x)}{mad (x)})}^{2}

$\hat{\nu}=\left(\frac{\text{med}(x)}{\text{mad}(x)}\right)^2$

\hat{λ} = \frac{mad (x)^{2}}{med (x)}

$\hat{\lambda}=\frac{\text{mad}(x)^2}{\text{med}(x)}$

Voir Chen et Rubin (1986) pour une dérivation complète.

J. Chen et H. Rubin, 1986. Limites de la différence entre la médiane et la moyenne des distributions Gamma et Poisson, Statist. Probab. Lett., 4, 281–283.
PJ Rousseeuw et C. Croux, 1993. Alternatives au Median Absolute Deviation Journal de l'American Statistical Association, vol. 88, n ° 424, pp. 1273-1283
Walker, H. (1931). Études de l'histoire de la méthode statistique. Baltimore, MD: Williams & Wilkins Co., p. 24-25.

— user603
source

- est-ce la valeur à utiliser, ou est-ce que l'une des deux inversions est supplémentaire?

Φ^{- 1} (0.75)^{- 1} \approx 1.4826

$\Phi^{-1}(0.75)^{-1} \approx 1.4826$

— Erich Schubert

@ErichSchubert: vous avez raison: j'ai oublié le deuxième inverse .. corrigé.

— user603

+1. Mais je pense que vous caractérisez mal le "facteur d'efficacité": il n'est pas analogue au facteur

pour la variance car ce dernier est universel alors que votre facteur est spécifique aux distributions normales uniquement: avec une distribution différente dans l'esprit, vous devrez changer votre facteur. Cette différence est une raison cruciale pour laquelle les variances et les SD ont vu beaucoup plus d'applications que le MAD.

n / (n - 1)

$n/(n-1)$

— whuber

@whuber: merci pour cela, je me rends compte maintenant que ma phrase "c'est similaire dans l'esprit " peut facilement être mal comprise. Je l'ai enlevé.

— user603

J'ai fait de la partie ExNormal une question distincte: stats.stackexchange.com/questions/48907/… Mais j'en ai une de plus pour vous: distribution LogNormal - gérer en appliquant le journal, puis procéder comme avec la distribution normale?

— Erich Schubert

Si, comme vous l'affirmez, les données sont normales à l'exception d'une petite proportion de valeurs aberrantes, l'écart médian et l'absolu médian seront robustes aux erreurs brutes mais ne feront pas un usage très efficace des informations dans les données non périphériques.

Si vous connaissiez une limite a priori sur la proportion de valeurs aberrantes, vous pouvez réduire cette proportion pour la moyenne et Winsorize l'écart-type. Une alternative qui ne nécessite pas une telle connaissance serait d'utiliser des estimateurs M pour l'emplacement et les quantités associées pour la variance. Le gain d'efficacité si vos hypothèses sont correctes (telles que les données étant vraiment normales à l'exception d'un petit pourcentage de valeurs aberrantes) peut dans certaines circonstances être substantiel.

$\frac{n}{n-1}$

— Glen_b -Reinstate Monica
source