L'idée principale est que la distribution d'échantillonnage de la médiane est simple à exprimer en termes de fonction de distribution mais plus compliquée à exprimer en termes de valeur médiane. Une fois que nous comprenons comment la fonction de distribution peut ré-exprimer des valeurs sous forme de probabilités et inversement, il est facile de dériver la distribution d'échantillonnage exacte de la médiane. Une petite analyse du comportement de la fonction de distribution près de sa médiane est nécessaire pour montrer que cette fonction est asymptotiquement normale.
(La même analyse fonctionne pour la distribution d'échantillonnage de tout quantile, pas seulement de la médiane.)
Je ne ferai aucune tentative pour être rigoureux dans cet exposé, mais je le fais en suivant des étapes faciles à justifier de manière rigoureuse si vous avez l’intention de le faire.
Intuition
Voici des instantanés d’une boîte contenant 70 atomes d’un gaz atomique chaud:
Dans chaque image, j'ai trouvé un emplacement, représenté par une ligne verticale rouge, qui divise les atomes en deux groupes égaux entre la gauche (dessinée en points noirs) et la droite (en points blancs). C'est une médiane des positions: 35 atomes se situent à sa gauche et 35 à sa droite. Les médianes changent parce que les atomes se déplacent de manière aléatoire dans la boîte.
Nous sommes intéressés par la distribution de cette position intermédiaire. On répond à cette question en inversant ma procédure: dessinons d'abord une ligne verticale quelque part, par exemple à l'emplacement . Quelle est la probabilité que la moitié des atomes se trouve à gauche de x et l'autre à droite? Les atomes à gauche individuellement avaient des chances que x soit à gauche. Les atomes individuellement à droite ont des chances de 1 - x pour être à droite. En supposant que leurs positions soient statistiquement indépendantes, les chances se multiplient, donnant x 35 ( 1 - x ) 35xxx1−xx35(1−x)35pour la chance de cette configuration particulière. Une configuration équivalente pourrait être obtenue pour une division différente des atomes en deux parties de 35 éléments. L’ajout de ces chiffres pour toutes les divisions possibles donne une chance de7035
Pr(x is a median)=Cxn/2(1−x)n/2
où est le nombre total d'atomes et est proportionnel au nombre de divisions de atomes en deux sous-groupes égaux.C nnCn
Cette formule identifie la répartition de la valeur médiane en tant que Beta de distribution(n/2+1,n/2+1) .
Maintenant, considérons une boîte avec une forme plus compliquée:
Encore une fois, les médianes varient. Parce que la case est basse près du centre, son volume y est peu volumineux: un petit changement dans le volume occupé par la moitié gauche des atomes (les noirs encore une fois) - ou, admettons-le, la zone située à gauche, comme indiqué sur ces figures, correspond à un changement relativement important de la position horizontale de la médiane. En fait, la surface sous-tendue par une petite section horizontale de la boîte étant proportionnelle à la hauteur , les modifications des médianes sont divisées par la hauteur de la boîte. Cela fait que la médiane est plus variable pour cette case que pour la case carrée, car celle-ci est beaucoup plus basse au milieu.
En bref, lorsque nous mesurons la position de la médiane en termes d’ aire (à gauche et à droite), l’analyse initiale (pour une case carrée) reste inchangée. La forme de la boîte ne complique la distribution que si nous insistons pour mesurer la médiane en fonction de sa position horizontale. Lorsque nous le faisons, la relation entre la représentation de la surface et la position est inversement proportionnelle à la hauteur de la boîte.
Il y a plus à apprendre de ces images. Il est clair que lorsque peu d’atomes sont dans (l’une ou l’autre) case, il y a plus de chance que la moitié d’entre eux se retrouvent accidentellement regroupés loin de l’un ou l’autre. À mesure que le nombre d'atomes augmente, le potentiel d'un déséquilibre aussi extrême diminue. Pour suivre cela, j'ai pris des "films" - une longue série de 5000 images - pour la boîte incurvée remplie de , puis de , puis de , et enfin de atomes, et noté les médianes. Voici les histogrammes des positions médianes:15 75 37531575375
Clairement, pour un nombre suffisamment grand d'atomes, la distribution de leur position médiane commence à ressembler à une cloche et se rétrécit: cela ressemble à un résultat du théorème de la limite centrale, n'est-ce pas?
Résultats quantitatifs
La "boîte", bien sûr, décrit la densité de probabilité d'une distribution: son sommet est le graphique de la fonction de densité (PDF). Ainsi, les zones représentent des probabilités. Placer points de manière aléatoire et indépendante dans une boîte et observer leurs positions horizontales est un moyen de tirer un échantillon de la distribution. (C’est l’idée derrière l’ échantillonnage de rejet. )n
La figure suivante relie ces idées.
Cela a l'air compliqué, mais c'est vraiment très simple. Il y a quatre parcelles liées ici:
Le graphique du haut montre le PDF d'une distribution avec un échantillon aléatoire de taille . Les valeurs supérieures à la médiane sont représentées par des points blancs; valeurs inférieures à la médiane en points noirs. Il n'a pas besoin d'une échelle verticale car nous savons que la surface totale est l'unité.n
Le graphique du milieu est la fonction de distribution cumulative pour la même distribution: il utilise la hauteur pour indiquer la probabilité. Il partage son axe horizontal avec la première parcelle. Son axe vertical doit aller de à car il représente des probabilités.101
Le graphique de gauche est destiné à être lu latéralement: c'est le PDF de la distribution Beta . Il montre comment la médiane dans la case variera lorsque la médiane est mesurée en termes de zones situées à gauche et à droite du milieu (plutôt que par sa position horizontale). J'ai dessiné points aléatoires à partir de ce PDF, comme indiqué, et les ai reliés par des lignes pointillées horizontales aux emplacements correspondants du CDF d'origine: c'est ainsi que les volumes (mesurés à gauche) sont convertis en positions (mesurées en haut, au centre). et graphiques du bas). Un de ces points correspond en fait à la médiane montrée dans le graphique du haut; J'ai tracé une ligne verticale continue pour montrer cela.16(n/2+1,n/2+1)16
Le graphique du bas représente la densité d'échantillonnage de la médiane, mesurée par sa position horizontale. Il est obtenu en convertissant la zone (dans le graphique de gauche) en position. La formule de conversion est donnée par l'inverse du CDF d'origine: c'est simplement la définition du CDF inverse! (En d'autres termes, le CDF convertit la position en une zone vers la gauche; le CDF inverse reconvertit une zone en une position.) J'ai tracé des lignes verticales en pointillés montrant comment les points aléatoires du tracé de gauche sont convertis en points aléatoires dans le tracé inférieur. . Ce processus de lecture à travers et ensuite vers le bas nous dit comment aller de zone en position.
Soit le CDF de la distribution originale (graphique du milieu) et le CDF de la distribution Beta. Pour trouver la chance que la médiane se trouve à gauche d'une position , utilisez d'abord pour obtenir l' aire située à gauche de dans la case: il s'agit de lui-même. La distribution bêta à gauche nous indique la probabilité que la moitié des atomes se trouvent dans ce volume, ce qui donne : il s'agit du CDF de la position médiane . Pour trouver son PDF (comme indiqué dans le graphique du bas), prenons le dérivé:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
où est le PDF (tracé du haut) et le PDF bêta (tracé de gauche).fg
Ceci est une formule exacte pour la distribution de la médiane pour toute distribution continue. (Avec un peu de soin dans l'interprétation, il peut être appliqué à n'importe quelle distribution, continue ou non.)
Résultats asymptotiques
Lorsque est très grand et que n’a pas de saut à sa médiane, la médiane de l’échantillon doit varier de manière étroite autour de la vraie médiane de la distribution. En supposant également que le PDF soit continu près de , dans la formule précédente ne changera pas beaucoup de sa valeur à donnée par De plus, n’y changera pas grand-chose non plus: au premier ordre,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Ainsi, avec une approximation en constante amélioration à mesure que grandit,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Il s’agit simplement d’un déplacement de l’emplacement et de l’ampleur de la distribution bêta. Le redimensionnement par divisera sa variance par (qui aurait dû être non nul!). Incidemment, la variance de Beta est très proche de .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Cette analyse peut être considérée comme une application de la méthode Delta .
Enfin, Bêta est approximativement normal pour grand . Il y a plusieurs façons de voir cela. Le plus simple est peut-être de regarder le logarithme de son PDF près de :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Les constantes et ne font que normaliser l'aire totale à l'unité.) Par le troisième ordre dans il s'agit alors du même journal que le journal du PDF normal avec la variance (Cet argument est rendu rigoureux en utilisant des fonctions générant des caractéristiques ou des cumulants au lieu du journal du PDF.)CC′x,1/(4n).
En d'autres termes, nous concluons que
La distribution de la médiane de l’échantillon a une variance d’environ ,1/(4nf(μ)2)
et il est à peu près normal pour le grand ,n
tous fournis à condition que le PDF soit continu et non nul à la médianefμ.