Récupération de la largeur minimale qui contient la fraction spécifiée de toutes les valeurs


8

J'aimerais trouver les limites min / max d'une fenêtre coulissante de taille minimale qui contient une certaine fraction du nombre total d'éléments dans un tableau ou une collection de nombres.

Exemple: prendre des entiers pour faciliter l'explication, disons que la proportion d'éléments que nous recherchons est de 50% sur ce tableau:

[1,1,2,3,3,3,3,3,3,4,5,6,7,8,9,10]

La fonction mystère retournerait quelque chose comme (2, 4), ce qui signifie que la valeur minimale est 2 et la valeur maximale est 4 (supposons qu'elle soit inclusive et notons que ce sont des VALEURS, pas des indices). Cette petite fenêtre contient 8 des 16 valeurs et elle ne fait que 2 unités de large, la fenêtre la plus étroite qui contient la moitié du nombre de valeurs.

Remarque: les quartiles sont [1,1,2,3], [3,3,3,3], [3,4,5,6], [7,8,9,10] donc ils ne sont PAS ce que je cherche.

Je peux le coder ... cela peut prendre un certain temps pour le rendre agréable. J'espère que quelqu'un l'a déjà rencontré. At-il un nom? Existe-t-il une méthode connue de quelqu'un?

Je suis intéressé par les implémentations Python.

MISE À JOUR:

Grâce à Glen_b qui a donné les noms de «demi-courte» et «intervalle le plus court», j'ai pu trouver ceci: trouver des intervalles de densité de probabilité


1
" J'espère que c'est correct de mettre cela sur les statistiques ET le stackoverflow " - C'est découragé, comme l' aide l' indique: " Veuillez noter, cependant, que la publication croisée n'est pas encouragée sur les sites SE. Choisissez un meilleur emplacement pour poster votre question. Plus tard , s'il s'avère mieux adapté sur un autre site, il peut être migré. ". Alors choisissez-en un, supprimez l'autre.
Glen_b -Reinstate Monica

Lorsqu'il est de 50%, un tel intervalle est parfois appelé une courte moitié . Plus généralement, il peut parfois être appelé un intervalle le plus court.
Glen_b -Reinstate Monica

Oops. Merci pour l'information. J'ai supprimé le post sur stackoverflow. Je vais chercher la «moitié courte»
user1269942

(en regardant le lien) Fait intéressant, j'ai débattu de la mention des intervalles HPD, mais ils s'appliquent vraiment aux distributions; J'ai supposé que les gens n'appliqueraient pas le même terme aux échantillons, mais ne trouvaient pas comment ils devaient être appelés. Il s'avère que j'avais tort.
Glen_b -Reinstate Monica

Réponses:


12

Titres:

  • Un mot-clé vaut .

  • Pour une implémentation R et des liens vers un projet en cours avec des publications, voir la page de Günther Sawitzki sur http://www.statlab.uni-heidelberg.de/people/gs/

  • Il existe une implémentation Stata, qui peut être installée par ssc inst shorth.

Plus lentement et sans chercher à rendre justice au travail de Sawitzki:

Les statistiques d'ordre d'un échantillon de valeurs de sont définies parnx

x(1)x(2)x(n1)x(n).

Soit . Ensuite, la moitié la plus courte des données du rang au rang est identifiée pour minimiser sur . Cet intervalle est appelé la longueur de la moitié la plus courte.h=n/2kk+hx(k+h)x(k)k=1,,nh

Le shorth a été nommé par JW Tukey et introduit dans l'étude de robustesse de Princeton des estimateurs de localisation par Andrews, Bickel, Hampel, Huber, Rogers et Tukey (1972, p.26) comme la moyenne de . Il a attiré l'attention pour ses propriétés asymptotiques inhabituelles (pp.50-52): sur ceux-ci, voir également les comptes rendus ultérieurs de Shorack et Wellner (1986, pp.767-771) et Kim et Pollard (1990). Sinon, il est rapidement tombé hors de vue pendant une dizaine d'années. Soit dit en passant, Hampel (1997) montre que les résultats disponibles à l'étude de Princeton sur les situations asymétriques, mais non entièrement analysés à l'époque, mettent la lumière sous un meilleur jour que ce qui était alors apprécié.x(k),,x(k+h)

L'intérêt pour ces idées a repris lorsque Rousseeuw (1984), s'appuyant sur une suggestion de Hampel (1975), a souligné que le milieu de la moitié la plus courte est l'estimateur le moins médian des carrés (LMS) de l'emplacement pour . Voir Rousseeuw (1984) et Rousseeuw et Leroy (1987) pour les applications du LMS et les idées associées à la régression et à d'autres problèmes. Notez que ce point médian du LMS est également appelé le shorth dans certaines publications récentes (par exemple David et Nagaraja 2003, p.223; Maronna, Martin et Yohai 2006, p.48). De plus, la moitié la plus courte elle-même est parfois appelée shorth, comme l'indique le titre de Grübel (1988).(x(k)+x(k+h))/2x

La longueur de la moitié la plus courte est une mesure robuste de l'échelle ou de la dispersion: voir Rousseeuw et Leroy (1988), Grübel (1988), Rousseeuw et Croux (1993) et Martin et Zamar (1993) pour une analyse et une discussion plus approfondies.

La longueur de la moitié la plus courte dans un gaussien (normal) avec une moyenne de 0 et un écart-type 1 est de 1,349 à 3 dp. Ainsi, pour estimer l'écart-type par rapport à la longueur observée, divisez par cette longueur gaussienne.

Certains commentaires généraux suivent les avantages et les inconvénients des demi-idées les plus courtes, du point de vue des analystes de données pratiques autant que des statisticiens mathématiques ou théoriques. Quel que soit le projet, il sera toujours judicieux de comparer les résultats courts avec des mesures sommaires standard (y compris d'autres moyens, notamment géométriques et harmoniques) et de relier les résultats à des graphiques de distributions. De plus, si vous vous intéressez à l'existence ou à l'étendue de la bimodalité ou de la multimodalité, il sera préférable d'examiner directement les estimations convenablement lissées de la fonction de densité.

  • Simplicité L'idée de la moitié la plus courte est simple et facile à expliquer aux étudiants et chercheurs qui ne se considèrent pas comme des statisticiens. Il conduit directement à deux mesures de localisation et une de diffusion assez intuitives. Il est également relativement accessible au calcul manuel avec des outils primitifs (crayon et papier, calculatrices, tableurs).

  • Connexions Les similitudes et les différences entre la longueur de la moitié la plus courte, la plage interquartile et l'écart absolu médian par rapport à la médiane (MAD) (ou d'ailleurs l'erreur probable) sont immédiates. Ainsi, les demi-idées les plus courtes sont liées à d'autres idées statistiques qui devraient déjà être familières à de nombreux analystes de données.

  • Interprétation graphique La moitié la plus courte peut facilement être reliée aux affichages standard des distributions telles que la distribution cumulative et les graphiques quantiles, les histogrammes et les graphiques tige-feuille.

  • Mode En faisant la moyenne là où les données sont les plus denses, le shorth et également le point médian LMS introduisent une saveur de mode au résumé de l'emplacement. Lorsqu'elle est appliquée à des distributions approximativement symétriques, la valeur courte sera proche de la moyenne et de la médiane, mais plus résistante que la moyenne aux valeurs aberrantes dans les deux queues et plus efficace que la médiane pour les distributions proches de la forme gaussienne (normale). Lorsqu'ils sont appliqués à des distributions unimodales et asymétriques, le shorth et le LMS seront généralement plus proches du mode que la moyenne ou la médiane. Il est à noter que l'idée d'estimer le mode comme le milieu de l'intervalle le plus court contenant un nombre fixe d'observations remonte au moins à Dalenius (1965). Voir aussi Robertson et Cryer (1974), Bickel (2002) et Bickel et Frühwirth (2006) sur d'autres estimateurs du mode. L'estimateur de mode à demi-échantillon de Bickel et Frühwirth est particulièrement intéressant en tant que sélection récursive de la moitié la plus courte. Les utilisateurs Stata peuvent télécharger une implémentation Stata enssc inst hsmode.

  • Identification des valeurs aberrantes Une normalisation résistante telle que (valeur - valeur courte) / longueur peut aider à identifier les valeurs aberrantes. Pour des discussions sur des idées connexes, voir Carey et al. (1997) et comprenait des références.

  • Généraliser à la fraction la plus courte L'idée peut être généralisée à des proportions autres que la moitié.

En même temps, notez que

  • Inutile pour toutes les distributions Lorsqu'il est appliqué à des distributions qui sont approximativement en forme de J, le shorth se rapproche de la moyenne de la moitié inférieure des données et le milieu du LMS sera plutôt plus élevé. Lorsqu'elle est appliquée à des distributions qui sont approximativement en forme de U, le shorth et le point médian du LMS seront dans la moitié de la distribution qui a la densité moyenne la plus élevée. Aucun de ces comportements ne semble particulièrement intéressant ou utile, mais de même, il n'y a guère de demande de résumés de type monomode pour les distributions en J ou en U; pour les formes J, le mode est, ou devrait être, le minimum et pour les formes U, la bimodalité rend l'idée d'un mode unique discutable, sinon invalide.

  • Liens La moitié la plus courte peut ne pas être définie de manière unique. Même avec des données mesurées, l'arrondissement des valeurs déclarées peut fréquemment donner lieu à des liens. Que faire des deux moitiés les plus courtes ou plus a été peu discuté dans la littérature. Notez que les moitiés liées peuvent se chevaucher ou être disjointes. Différentes implémentations peuvent résoudre ce problème de manières légèrement différentes.

  • Justification de la longueur de la fenêtre Pourquoi la moitié est considérée comme signifiant ne semble pas non plus être discuté. Évidemment, nous avons besoin d'une règle qui donne une longueur de fenêtre à la fois impair et pair ; il est préférable que la règle soit simple; et il y a généralement un léger arbitraire dans le choix d'une règle de ce genre. Il est également important que toute règle se comporte raisonnablement pour les petits : même si un programme n'est pas délibérément invoqué pour de très petites tailles d'échantillon, la procédure utilisée doit avoir un sens pour toutes les tailles possibles. Notez que, avec cette règle, étant donné la valeur courte est juste la valeur de l'échantillon unique, et étant donné1+n/2nnn=1n=2la valeur est la moyenne des deux valeurs d'échantillon. Un autre détail sur cette règle est qu'elle définit toujours une légère majorité, faisant ainsi appliquer les décisions démocratiques concernant les données. Cependant, il ne semble pas y avoir de raison valable de ne pas utiliser comme règle encore plus simple, sauf que tous les auteurs sur le shorth semblent avoir suivi .n/21+n/2

  • Utilisation avec des données pondérées L' identification de la moitié la plus courte ne semble s'étendre que de manière assez désordonnée aux situations dans lesquelles les observations sont associées à des poids inégaux.

  • Longueur lorsque la plupart des valeurs sont identiques Lorsqu'au moins la moitié des valeurs d'un échantillon sont égales à une constante, la longueur de la moitié la plus courte est 0. Ainsi, par exemple, si la plupart des valeurs sont 0 et que certaines sont plus grandes, la longueur de la plus courte la moitié n'est pas particulièrement utile comme mesure d'échelle ou de propagation.

Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers et JW Tukey. 1972. Estimations robustes de l'emplacement: relevé et progrès. Princeton, NJ: Princeton University Press.

Bickel, DR 2002. Estimateurs robustes du mode et de l'asymétrie des données continues. Statistiques computationnelles et analyse des données 39: 153-163.

Bickel, DR et R. Frühwirth. 2006. Sur un estimateur rapide et robuste du mode: comparaisons avec d'autres estimateurs avec applications. Statistiques computationnelles et analyse des données 50: 3500-3530.

Carey, VJ, EE Walters, CG Wager et BA Rosner. 1997. Rejet des valeurs aberrantes résistant et basé sur des tests: effets sur l'inférence gaussienne à un et deux échantillons. Technometrics 39: 320-330.

Christmann, A., U. Gather et G. Scholz. 1994. Quelques propriétés de la longueur de la moitié la plus courte. Statistica Neerlandica 48: 209-213.

Dalenius, T. 1965. Le mode - Un paramètre statistique négligé. Journal, Royal Statistical Society A 128: 110-117.

Grübel, R. 1988. La longueur du shorth. Annals of Statistics 16: 619-628.

Hampel, FR 1975. Au-delà des paramètres de localisation: concepts et méthodes robustes. Bulletin, Institut international de statistique 46: 375-382.

Hampel, FR 1997. Quelques notes supplémentaires sur "l'année de robustesse de Princeton". Dans Brillinger, DR, LT Fernholz et S. Morgenthaler (eds) La pratique de l'analyse des données: essais en l'honneur de John W. Tukey. Princeton, NJ: Princeton University Press, 133-153.

Kim, J. et D. Pollard. 1990. Asymptotique des racines cubiques. Annals of Statistics 18: 191-219.

Maronna, RA, RD Martin et VJ Yohai. 2006. Statistiques robustes: théorie et méthodes. Chichester: John Wiley.

Martin, RD et RH Zamar. 1993. Estimation robuste de l'échelle de biais. Annals of Statistics 21: 991-1017.

Robertson, T. et JD Cryer. 1974. Une procédure itérative pour estimer le mode. Journal, American Statistical Association 69: 1012-1016.

Rousseeuw, PJ 1984. La médiane de régression des moindres carrés. Journal, American Statistical Association 79: 871-880.

Rousseeuw, PJ et C. Croux. 1993. Alternatives à l'écart médian absolu. Journal, American Statistical Association 88: 1273-1283.

Rousseeuw, PJ et AM Leroy. 1987. Régression robuste et détection des valeurs aberrantes. New York: John Wiley.

Rousseeuw, PJ et AM Leroy. 1988. Un estimateur à échelle robuste basé sur la moitié la plus courte. Statistica Neerlandica 42: 103-116.

Shorack, GR et JA Wellner. 1986. Processus empiriques avec application aux statistiques. New York: John Wiley.


Merci; Je savais qu'il y avait un terme abrégé lorsque j'ai mentionné la courte moitié , mais je ne pouvais pas penser à ce que c'était.
Glen_b -Reinstate Monica

3
+6 Post incroyable: informatif, perspicace et amusant à lire.
whuber

@whuber Merci beaucoup; l'éloge du louable est en effet un éloge. Il s'agit principalement d'une version de la documentation de mon implémentation Stata téléchargeable par les utilisateurs Stata par ssc inst shorthet autrement visible sur econpapers.repec.org/software/bocbocode/s456728.html (les utilisateurs non-Stata n'obtiendront rien de plus en y regardant).
Nick Cox

très agréable! des excuses pour avoir pris si longtemps pour l'accepter comme réponse ... il est tombé du radar assez rapidement.
user1269942
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.