Cette réponse se concentre entièrement sur l'estimation de mode à partir d'un échantillon, en mettant l'accent sur une méthode particulière. S'il y a un sens fort dans lequel vous connaissez déjà la densité, analytiquement ou numériquement, alors la réponse préférée est, en bref, de rechercher directement le maximum unique ou les maxima multiples, comme dans la réponse de @Glen_b.
Les "modes de demi-échantillon" peuvent être calculés en utilisant une sélection récursive du demi-échantillon de la plus courte longueur. Bien qu'elle ait des racines plus longues, une excellente présentation de cette idée a été donnée par Bickel et Frühwirth (2006).
L'idée d'estimer le mode comme le milieu de l'intervalle le plus court contenant un nombre fixe d'observations remonte au moins à Dalenius (1965). Voir aussi Robertson et Cryer (1974), Bickel (2002) et Bickel et Frühwirth (2006) sur d'autres estimateurs du mode.
Les statistiques d'ordre d'un échantillon de valeurs de x sont définies par x ( 1 ) ≤ x ( 2 ) ≤ ⋯ ≤ x ( n - 1 ) ≤ x ( n ) .nxx(1)≤x(2)≤⋯≤x(n−1)≤x(n)
Le mode demi-échantillon est ici défini à l'aide de deux règles.
Règle 1. Si , le mode demi-échantillon est x ( 1 ) . Si n = 2 , le mode demi-échantillon est ( x ( 1 ) + x ( 2 ) ) / 2 . Si n = 3 , le mode demi-échantillon est ( x ( 1 ) + x ( 2 ) ) / 2 si x ( 1 ) et x ( 2n=1x(1)n=2(x(1)+x(2))/2n=3(x(1)+x(2))/2x(1)x(2)x(2)x(3)(x(2)+x(3))/2x(2)
n≥43h1=⌊n/2⌋kk+h1x(k+h1)−x(k)k=1,⋯,n−h1h1+1h2=⌊h1/2⌋
x(k),⋯,x(k+h)h=⌊n/2⌋ est l'estimateur le moins médian des carrés (LMS) de l'emplacement pour x . Voir Rousseeuw (1984) et Rousseeuw et Leroy (1987) pour les applications du LMS et les idées associées à la régression et à d'autres problèmes. Notez que ce point médian du LMS est également appelé le shorth dans certains ouvrages plus récents (par exemple Maronna, Martin et Yohai 2006, p.48). De plus, la moitié la plus courte elle-même est parfois appelée shorth, comme l'indique le titre de Grübel (1988). Pour une implémentation Stata et plus de détails, voir à
partir de SSC.(xk+x(k+h))/2xshorth
Certains commentaires généraux suivent les avantages et les inconvénients des modes de demi-échantillon, du point de vue des analystes de données pratiques autant que des statisticiens mathématiques ou théoriques. Quel que soit le projet, il sera toujours judicieux de comparer les résultats avec des mesures sommaires standard (par exemple des médianes ou des moyennes, y compris des moyennes géométriques et harmoniques) et de relier les résultats à des graphiques de distributions. De plus, si vous vous intéressez à l'existence ou à l'étendue de la bimodalité ou de la multimodalité, il sera préférable de regarder directement des estimations convenablement lissées de la fonction de densité.
Estimation de mode En résumant où les données sont les plus denses, le mode demi-échantillon ajoute un estimateur automatique du mode à la boîte à outils. Des estimations plus traditionnelles du mode basées sur l'identification de pics sur des histogrammes ou même des graphiques de densité de noyau sont sensibles aux décisions sur l'origine ou la largeur du bac ou le type et la demi-largeur du noyau et sont plus difficiles à automatiser de toute façon. Lorsqu'il est appliqué à des distributions unimodales et approximativement symétriques, le mode demi-échantillon sera proche de la moyenne et de la médiane, mais plus résistant que la moyenne aux valeurs aberrantes dans les deux queues. Lorsqu'il est appliqué à des distributions unimodales et asymétriques, le mode demi-échantillon sera généralement beaucoup plus proche du mode identifié par d'autres méthodes que la moyenne ou la médiane.
Simplicité L'idée du mode demi-échantillon est assez simple et facile à expliquer aux étudiants et chercheurs qui ne se considèrent pas comme des statisticiens.
Interprétation graphique Le mode demi-échantillon peut facilement être lié à des affichages standard de distributions telles que les diagrammes de densité de noyau, les diagrammes de distribution cumulative et quantile, les histogrammes et les diagrammes tige-feuille.
En même temps, notez que
Inutile pour toutes les distributions Lorsqu'il est appliqué à des distributions qui sont approximativement en forme de J, le mode demi-échantillon approximera le minimum des données. Lorsqu'il est appliqué à des distributions qui sont approximativement en forme de U, le mode demi-échantillon sera dans la moitié de la distribution qui a la densité moyenne la plus élevée. Aucun des deux comportements ne semble particulièrement intéressant ou utile, mais de même, il n'y a guère de demande de résumés de type monomode pour les distributions en forme de J ou en U. Pour les formes en U, la bimodalité rend l'idée d'un moot mode unique, sinon invalide.
Liens La moitié la plus courte peut ne pas être définie de manière unique. Même avec des données mesurées, l'arrondi des valeurs déclarées peut fréquemment donner lieu à des liens. Que faire des deux moitiés les plus courtes ou plus a été peu discuté dans la littérature. Notez que les moitiés liées peuvent se chevaucher ou être disjointes.
hsmode
tt⌈t/2⌉
−9,−4,−1,0,−1,4,9−0.501+⌊n/2⌋nn, ce qui est difficile à réaliser étant donné d'autres desiderata, notamment que la longueur de la fenêtre ne devrait jamais diminuer avec la taille de l'échantillon. Nous préférons croire qu'il s'agit d'un problème mineur avec des ensembles de données de taille raisonnable.
1+⌊n/2⌋nnn=1,n=2⌈n/2⌉
1.6,3.11,3.95,4.2,4.2,4.62,4.62,4.62,4.7,4.87,5.04,5.29,5.3,5.38,5.38,5.38,5.54,5.54,5.63,5.71,6.13,6.38,6.38,6.67,6.69,6.97,7.22,7.72,7.98,7.98,8.74,8.99,9.27,9.74,10.66.hsmode
5.00,5.02,5.04
Andrews, DF, PJ Bickel, FR Hampel, PJ Huber, WH Rogers et JW Tukey. 1972. Estimations robustes de l'emplacement: relevé et progrès.
Princeton, NJ: Princeton University Press.
Bickel, DR 2002. Estimateurs robustes du mode et de l'asymétrie des données continues. Statistiques computationnelles et analyse des données 39: 153-163.
Bickel, DR et R. Frühwirth. 2006. Sur un estimateur rapide et robuste du mode: comparaisons avec d'autres estimateurs avec applications. Statistiques computationnelles et analyse des données 50: 3500-3530.
Dalenius, T. 1965. Le mode - Un paramètre statistique négligé. Journal, Royal Statistical Society A 128: 110-117.
Grübel, R. 1988. La longueur du shorth. Annals of Statistics 16: 619-628.
Hampel, FR 1975. Au-delà des paramètres de localisation: concepts et méthodes robustes. Bulletin, Institut international de statistique 46: 375-382.
Maronna, RA, RD Martin et VJ Yohai. 2006. Statistiques robustes: théorie et méthodes . Chichester: John Wiley.
Robertson, T. et JD Cryer. 1974. Une procédure itérative pour estimer le mode. Journal, American Statistical Association 69: 1012-1016.
Rousseeuw, PJ 1984. La médiane de régression des moindres carrés. Journal, American Statistical Association 79: 871-880.
Rousseeuw, PJ et AM Leroy. 1987. Régression robuste et détection des valeurs aberrantes . New York: John Wiley.
Ce compte est basé sur la documentation de
Cox, NJ 2007. HSMODE: module Stata pour calculer les modes de demi-échantillon, http://EconPapers.repec.org/RePEc:boc:bocode:s456818 .
Voir également le site Web de David R. Bickel ici pour des informations sur les implémentations dans d'autres logiciels.