Définition des quantiles sur un échantillon pondéré

J'ai un échantillon pondéré, pour lequel je souhaite calculer des quantiles. ¹

Idéalement, où les poids sont égaux (si = 1 ou autre), les résultats seraient conformes à celles de scipy.stats.scoreatpercentile()et R de quantile(...,type=7).

Une approche simple serait de «multiplier» l'échantillon en utilisant les poids donnés. Cela donne effectivement un ecdf localement "plat" dans les zones de poids> 1, ce qui semble intuitivement être la mauvaise approche lorsque l'échantillon est en fait un sous-échantillonnage. En particulier, cela signifie qu'un échantillon dont les poids sont tous égaux à 1 a des quantiles différents de celui dont les poids sont tous égaux à 2 ou 3. (Notez cependant que l'article référencé dans [1] semble utiliser cette approche.)

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile donne une formulation alternative pour le centile pondéré. Il n'est pas clair dans cette formulation si des échantillons adjacents avec des valeurs identiques doivent d'abord être combinés et leurs poids additionnés, et en tout cas ses résultats ne semblent pas être cohérents avec le type par défaut de R 7 quantile()dans le cas non pondéré / également pondéré. La page wikipedia sur les quantiles ne mentionne pas du tout le cas pondéré.

Existe-t-il une généralisation pondérée de la fonction quantile "type 7" de R?

[en utilisant Python, mais juste à la recherche d'un algorithme, vraiment, donc n'importe quel langage fera l'affaire]

[1] Les poids sont des entiers; les poids sont ceux des tampons qui sont combinés dans les opérations de "réduction" et de "sortie" comme décrit dans http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf . Essentiellement, l'échantillon pondéré est un sous-échantillonnage de l'échantillon complet non pondéré, chaque élément x (i) du sous-échantillon représentant les éléments de pondération (i) de l'échantillon complet.

algorithms quantiles weighted-sampling

— Misha
source

Le sujet est assez ancien, mais voici le code numpy pour les quantiles pondérés stackoverflow.com/a/29677616/498892

— Alleo

C'est une approche possible:

Supposons que vous ayez un échantillon ordonné avec les poids respectifs . $X_1 \le X_2 \le \cdots \le X_n$ $W_1, W_2, \ldots, W_n$

Définissez donc et .

S_{k} = (k - 1) W_{k} + (N - 1) \sum_{i = 1}^{k - 1} W_{i}

$S_k = (k-1) W_k+ (N-1) \sum_{i=1}^{k-1} W_i$

S_{1} = 0

$S_1=0$

S_{n} = (N - 1) \sum_{i = 1}^{N} W_{i}

$S_n = (N-1) \sum_{i=1}^{N} W_i$

Pour une interpolation du quantile , trouvez tel que . Votre estimation pourrait alors être $p$ $k$ $\frac{S_k}{S_n} \le p \le \frac{S_{k+1}}{S_n}$

X_{k} + (X_{k + 1} - X_{k}) \frac{p S_{n} - S_{k}}{S_{k + 1} - S_{k}} .

$X_k + (X_{k+1}-X_k)\frac{pS_n-S_k}{S_{k+1}-S_k}.$

$W_i$

— Henri
source

Il peut y avoir un problème si deux valeurs de l'échantillon sont égales mais ont des poids différents - je n'y ai pas pensé.

— Henry