Démonstration du biais quantile de l'échantillon


8

En faisant quelques simulations, j'ai réalisé que le quantile d'échantillon est un estimateur biaisé du vrai quantile. Et, selon mes simulations, potentiellement très biaisée.

J'ai été surpris de ce résultat car le CDF empirique n'est pas biaisé, mais après quelques recherches sur Internet, j'ai découvert que c'était vrai .

J'ai essayé de comprendre d'où vient ce biais, mais travailler avec des quantiles d'échantillon est assez difficile. Quelqu'un at-il une démonstration de ce biais (et, idéalement, une quantification)?


2
L'ECDF est non biaisé pour le cdf, mais comment passer de l'ECDF à un quantile d'échantillon?
Glen_b -Reinstate Monica

3
Il n'y a pas de "quantile d'échantillon". Il existe de nombreuses définitions des échantillons de quantiles. Vous devez spécifier lequel vous voulez dire.
Rob Hyndman

Réponses:


3

Le biais dans l’estimation des quantiles est étudié sans distribution dansp

http://www.sciencedirect.com/science/article/pii/S016771520000242X

(un pdf se trouve sur la même page). Les auteurs se concentrent sur l'estimateur quantile basé sur l'inversion ECDF. Aucune hypothèse sur la distribution sous-jacente n'est faite (à l'exception du deuxième moment fini), ainsi les distributions discrètes sont également incluses.

Quelques faits saillants:

  • Le biais est proportionnel à l'écart-type de la distribution sous-jacenteσ

  • Le biais est plus petit dans les quantiles centraux que dans les extrêmes. Cela vient du fait que parmi toutes les distributions avec l'écart type , le biais oscille dans un intervalle de longueur . Étonnamment, cela ne dépend pas de la taille de l'échantillon .σ<σp(1p)n

  • Pour , parmi toutes les distributions standardisées (moyenne 0, écart-type 1), le pire biais est associé à la distribution ayant un atome de probabilité à et un atome de probabilité à .np>3p(1p)/p1pp/(1p)


1

Juste pour ajouter à cet ancien article, l'ECDF n'est impartial que pour des échantillons de grande taille. Aux faibles valeurs de N, il est biaisé. Prenez le cas trivial de N = 1 et l'ECDF prend une valeur de 1 à et au-dessus de la valeur d'échantillon. Demandez-vous quelle est la valeur de la distribution sous-jacente qui donne une probabilité de 1?

Le biais dépasse en fait sqrt (2 * pi) / (2N) * SD ou 1,25 / N * SD, donc pour un N de 5, c'est un biais de 0,25 SD.

Au lieu d'un ECDF basé sur k / N, essayez (k-0,5) / N pour obtenir un ECDF non biaisé. Cela pourrait vous donner des quantiles d'échantillons non biaisés. Il garantit également que ECDF (x) = 1-ECDF (-x) dont bénéficient toutes les autres distributions cumulatives.

À mon humble avis, l'ECDF tel qu'il est défini et utilisé est un énorme abus de langage. Il polarise Kolmogorov Smirnov, Lilliefors et d'autres tests standard à faible N.

Découvrez Gilchrist "Modélisation statistique avec fonctions quantiles"


1
C'est un point intéressant, mais techniquement, l'ECDF est impartial! Vous faites référence au fait que, disons, après avoir vu que ECDF (x) = 1, vous savez que l'erreur ne peut avoir qu'un seul signe, vous avez donc un biais conditionnel de tri. Mais la propriété fréquentiste de l'impartialité fait référence à la situation avant de voir des données, pas au biais conditionnel auquel vous faites référence.
kjetil b halvorsen

0

Il existe une véritable définition de quantile d'échantillon unique (qui n'est pas celle habituellement présentée). Voir: http://dx.doi.org/10.1155/2014/326579


L'article est intéressant mais de nombreux lecteurs bénéficieraient d'un résumé des arguments et pourquoi les nombreuses définitions existantes sont mal orientées.
mdewey
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.