Oui, nous pouvons obtenir un résultat analogue en utilisant la moyenne et la variance de l’échantillon, avec peut-être quelques surprises mineures dans le processus.
Premièrement, nous devons affiner un peu l’énoncé de la question et formuler quelques hypothèses. Il est important de noter qu'il est clair que nous ne pouvons pas espérer remplacer la variance de la population par la variance de l' échantillon du côté droit, car ce dernier est aléatoire ! Nous recentrons donc notre attention sur l'inégalité équivalente
Au cas où il ne serait pas clair que ces valeurs soient équivalentes, notez que nous avons simplement remplacé t par t σ dans l'inégalité d'origine sans perte de généralité.
P ( X- E X≥ t σ) ≤ 11 + t2.
tt σ
Deuxièmement, nous supposons que nous avons un échantillon aléatoire et nous sommes intéressés à une limite supérieure pour la quantité analogue
P ( X 1 - ˉ X ≥ t S ) , où ˉ X est la moyenne d' échantillon et S est l’écart type de l’échantillon.X1, … , XnP ( X1- X¯≥ t S)X¯S
Un demi-pas en avant
Notez que déjà en appliquant la unilatérale inégalité Tchebychev originale , nous obtenons que
P ( X 1 - ˉ X ≥ t σ ) ≤ 1X1−X¯
oùσ2=Var(X1), qui estplus petitque le côté droit de la version d'origine. C'est logique! Toute réalisation particulière d’une variable aléatoire à partir d’un échantillon aura tendance à être (légèrement) plus proche de la moyenne de l’échantillon auquel elle contribue que de la moyenne de la population. Comme nous le verrons plus loin, nous allons remplacerσparSsous des hypothèses encore plus générales.
P(X1−X¯≥tσ)≤11+nn−1t2
σ2=Var(X1)σS
Un exemple de version de Chebyshev unilatéral
Revendication : Soit un échantillon aléatoire tel que P ( S = 0 ) = 0 . Ensuite, P ( X 1 - ˉ X ≥ t S ) ≤ 1X1,…,XnP(S=0)=0En particulier, l'exemple de version de la liaison estplus étroitque la version d'origine.
P(X1−X¯≥tS)≤11+nn−1t2.
Remarque : Nous ne supposons pas que le ait une moyenne finie ou une variance!Xi
Preuve . L'idée est d'adapter la preuve de l'inégalité unilatérale de Chebyshev et d'utiliser la symétrie dans le processus. Tout d' abord, définissez pour de commodité notationnelle. Ensuite, observez que
P ( Y 1 ≥ t S ) = 1Yi=Xi−X¯
P(Y1≥tS)=1n∑i=1nP(Yi≥tS)=E1n∑i=1n1(Yi≥tS).
Maintenant, pour tout , on { S > 0 } ,
1 ( Y i ≥ t S ) = 1 ( Y i + t c S ≥ t S ( 1 + c ) ) ≤ 1 ( ( Y i + t c S ) 2 ≥ t 2 ( 1 + c ) 2 S 2c > 0{ S> 0 }
1( Yje≥ t S)= 1( Yje+tcS≥tS(1+c))≤1((Yi+tcS)2≥t2(1+c)2S2)≤(Yi+tcS)2t2(1+c)2S2.
1n∑i1(Yi≥tS)≤1n∑i(Yi+tcS)2t2(1+c)2S2=(n−1)S2+nt2c2S2nt2(1+c)2S2=(n−1)+nt2c2nt2(1+c)2,
since
Y¯=0 and
∑iY2i=(n−1)S2.
The right-hand side is a constant (!), so taking expectations on both sides yields,
P(X1−X¯≥tS)≤(n−1)+nt2c2nt2(1+c)2.
Finally, minimizing over
c, yields
c=n−1nt2, which after a little algebra establishes the result.
That pesky technical condition
Note that we had to assume P(S=0)=0 in order to be able to divide by S2 in the analysis. This is no problem for absolutely continuous distributions, but poses an inconvenience for discrete ones. For a discrete distribution, there is some probability that all observations are equal, in which case 0=Yi=tS=0 for all i and t>0.
We can wiggle our way out by setting q=P(S=0). Then, a careful accounting of the argument shows that everything goes through virtually unchanged and we get
Corollary 1. For the case q=P(S=0)>0, we have
P(X1−X¯≥tS)≤(1−q)11+nn−1t2+q.
Proof. Split on the events {S>0} and {S=0}. The previous proof goes through for {S>0} and the case {S=0} is trivial.
A slightly cleaner inequality results if we replace the nonstrict inequality in the probability statement with a strict version.
Corollary 2. Let q=P(S=0) (possibly zero). Then,
P(X1−X¯>tS)≤(1−q)11+nn−1t2.
Final remark: The sample version of the inequality required no assumptions on X (other than that it not be almost-surely constant in the nonstrict inequality case, which the original version also tacitly assumes), in essence, because the sample mean and sample variance always exist whether or not their population analogs do.