Estimation robuste du kurtosis?

J'emploie l'estimateur habituel de , mais je remarque que mêmepetites valeurs aberrantes « » dans ma distribution empirique,savoirpetits pics loin du centre, affectent énormément. Existe-t-il un estimateur de kurtosis qui est plus robuste?

\hat{K} = \frac{{\hat{μ}}_{4}}{{\hat{σ}}^{4}}

$\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}$

— yoki
source

Il y a plusieurs. Vous trouverez une comparaison exhaustive dans ce lien avec une version non fermée du document (référence appropriée au bas de cette réponse).

Du fait des contraintes du problème, la répartition du plus robuste de ces algorithmes (le L / RMC) est au maximum de 12,5%. Un avantage pour le L / RMC est qu'il est basé sur des quantiles et reste interprétable même lorsque la distribution sous-jacente n'a pas de moments. Un autre avantage est qu'il n'assume pas la symétrie de la distribution de la partie non contaminée des données pour mesurer le poids de la queue: en fait, l'algorithme renvoie deux nombres: le RMC pour le poids de la queue droite et le LMC pour le poids de la queue gauche.

$[0,1]$ par construction: aucune quantité de contamination ne peut par exemple faire retourner l'algorithme -1!). En pratique, on constate que l'on peut remplacer environ 5% de l'échantillon par des valeurs aberrantes même très pathologiques sans que la plus affectée des estimations (il y en a toujours deux) s'écarte trop de la valeur qu'elle avait sur l'échantillon non contaminé.

Le L / RMC est également largement mis en œuvre. Par exemple, vous pouvez trouver une implémentation R ici . Comme expliqué dans l'article lié ci-dessus, pour calculer le L / RMC, vous devez calculer le MC (l'estimateur implémenté dans le lien) séparément sur la moitié gauche et droite de vos données. Ici, (à gauche) la moitié droite sont les sous-échantillons formés de l'observation (plus petits) plus grands que la médiane de votre échantillon d'origine.

Brys, Hubert, Struyf. (2006). Mesures robustes du poids de la queue.

— user603
source

Ces mesures alternatives du poids de la queue ne sont-elles pas, à proprement parler, des estimateurs robustes du kurtosis? C'est peut-être ce qu'il veut vraiment. mais ce n'est pas exactement ce qu'il a demandé. Certains / tous ces estimateurs convergent-ils vers un kurtosis pour les grands échantillons?

— andrewH

Résumé de l'article: À des données non contaminées satisfaisant les conditions sur l'ordre convexe de Van Zwet (dans lesquelles la mesure de kurtosis est significative), elles convergent vers une fonction monotone de kurtosis.

— user603

Le kurtosis de Pearson mesure les valeurs aberrantes (observations extrêmes rares), simples et simples. Alors que recherchez-vous à la place? Une mesure de "pic"? Premièrement, ce n'est pas du tout ce que mesure le kurtosis de Pearson. Deuxièmement, si vous voulez une mesure de "pic", vous devez d'abord définir ce que cela signifie. Si vous pouvez le définir, vous pouvez l'estimer. Une possibilité est la dérivée seconde du pdf des données standardisées, évaluée au pic. (Vous êtes les bienvenus). Je suis sûr qu'il y en a d'autres.

— Peter Westfall

En fait, je donne trois théorèmes mathématiques qui relient le kurtosis aux queues de la distribution, donc ceux-ci ne peuvent pas être falsifiés: (i) Pour toutes les distributions avec un quatrième moment fini, le kurtosis est entre E (Z ^ 4 * I (| Z |> 1 )) et E (Z ^ 4 * I (| Z |> 1)) +1. (ii) Dans la sous-classe pour laquelle la densité de Z ^ 2 est continue et décroissante sur (0,1), le "+1" peut être remplacé par "+.5". (iii) Pour toute séquence de distributions ayant kurtosis -> infini, E (Z ^ 4 * I (| Z |> b)) / kurtosis -> 1, pour tout réel b. Tout est là: ncbi.nlm.nih.gov/pmc/articles/PMC4321753

— Peter Westfall