Si

9

Supposons la configuration suivante:
Soit $Z_i = \min\{k_i, X_i\}, i=1,...,n$ . Aussi $X_i \sim U[a_i, b_i], \; a_i, b_i >0$ . De plus $k_i = ca_i + (1-c)b_i,\;\; 0<c<1$ ie $k_i$ est une combinaison convexe des limites des supports respectifs. $c$ est commun à tout $i$ .

Je pense avoir la bonne distribution de $Z_i$ : c'est une distribution mixte .
Il a une partie continue,

X_{i} \in [a_{i}, k_{i}), Z_{i} = X_{i} \Rightarrow Pr (Z_{i} \leq z_{i}) = \frac{z_{i} - a_{i}}{b_{i} - a_{i}}

$X_i \in [a_i, k_i), Z_i=X_i \Rightarrow \Pr(Z_i \le z_i) = \frac {z_i-a_i}{b_i-a_i}$ puis une discontinuité et une partie discrète où concentrés de masse de probabilité:

Pr (Z_{i} = k_{i}) = Pr (X_{i} > k_{i}) = 1 - Pr (X_{i} \leq k_{i})

$\Pr(Z_i=k_i) = \Pr(X_i > k_i) = 1- \Pr(X_i \le k_i)$

= 1 - \frac{k_{i} - a_{i}}{b_{i} - a_{i}} = 1 - \frac{(1 - c) (b_{i} - a_{i})}{b_{i} - a_{i}} = c

$= 1- \frac {k_i - a_i}{b_i-a_i} = 1-\frac {(1-c)(b_i-a_i)}{b_i-a_i} =c$

Donc, dans tous les

F_{Z_{i}} (z_{i}) = {\begin{cases} 0 z_{i} < a_{i} \\ \frac{z_{i} - a_{i}}{b_{i} - a_{i}} a_{i} \leq z_{i} < k_{i} \\ 1 k_{i} \leq z_{i} \end{cases}

$F_{Z_i}(z_i) = \begin{cases} 0\qquad z_i<a_i\\ \\ \frac {z_i-a_i}{b_i-a_i}\qquad a_i\le z_i<k_i \\ \\1\qquad k_i\le z_i\end{cases}$

alors que pour la fonction mixte masse / densité "discrète / continue", elle est $0$ dehors de l'intervalle $[a_i, k_i]$ , elle a une partie continue qui est la densité d'un uniforme $U(a_i, b_i)$ , $\frac {1}{b_i-a_i}$ mais pour $a_i\le z_i<k_i$ , et il concentre la masse de probabilité positive $c >0$ à $z_i = k_i$ .

En somme, cela se résume à l'unité sur les réels.

Je voudrais pouvoir dériver ou dire quelque chose sur la distribution et / ou les moments de la variable aléatoire $S_n \equiv \sum_{i=1}^n Z_i$ , comme $n\rightarrow \infty$ .

Disons que si les sont indépendants, cela ressemble à comme . Puis-je "ignorer" cette partie, même en tant qu'approximation? Il me resterait alors une variable aléatoire qui se situe dans l'intervalle , ressemblant à la somme d'uniformes censurés, en passe de devenir "non censurés", et donc peut-être un théorème central limite ... mais je suis probablement en train de diverger plutôt que de converger ici, alors, des suggestions? $X_i$ $\Pr(S_n = \sum_i^nk_i) = c^n \rightarrow 0$ $n\rightarrow \infty$ $[\sum_{i=1}^na_i,\; \sum_{i=1}^nk_i)$

PS: Cette question est pertinente, dérivant la distribution de la somme des variables censurées , mais la réponse de @Glen_b n'est pas ce dont j'ai besoin - je dois travailler cette chose analytiquement, même en utilisant des approximations. Il s'agit de recherche, alors veuillez le traiter comme des devoirs - les suggestions générales ou les références à la littérature sont assez bonnes.

— Alecos Papadopoulos
source

Si vous en avez besoin, écrivez la distribution de comme , avec un approprié , dans lequel est un ensemble Borel.

Z_{i}

$Z_i$

μ_{Z_{i}} (B) = P (Z_{i} \in B) = \int_{B} g (t) d t + c I_{B} (k_{i})

$\mu_{Z_i}(B)=P(Z_i\in B)=\int_B g(t)\,dt +c\,I_B(k_i)$

g

$g$

B

$B$

— Zen

@Zen J'ai déjà écrit dans la question que la distribution est discontinue. De plus, le RHS de rend évident que ce représente une densité dans , mais pour une probabilité pour - et je préfère la notation compacte.

f

$f$

f

$f$

[a_{i}, k_{i})

$[a_i,k_i)$

k_{i}

$k_i$

— Alecos Papadopoulos

Pour autant que je sache, cette notation avec était un pdf et un pmf n'existe pas; et nous avons le langage mathématique approprié pour décrire précisément les distributions mixtes. Je doute que cette notation soit acceptée lorsque vous publierez votre recherche. Juste mon avis bien sûr. Vous devez toujours le faire comme vous l'aimez.

f

$f$

— Zen

@Zen Publishing a un long chemin à parcourir - et en effet, les critiques froncent les sourcils lorsqu'ils voient une notation non établie. Celui-ci n'est qu'un raccourci quand on veut décrire une distribution pas à pas sur plusieurs lignes. Il n'y a aucun "argument en faveur" et contre la notation établie, comme par exemple celui que vous avez utilisé dans un commentaire précédent.

— Alecos Papadopoulos

5

Je suivrais le conseil d'Henry et vérifierais Lyapunov avec . Le fait que les distributions soient mixtes ne devrait pas être un problème, tant que les et se comportent correctement. La simulation du cas particulier dans lequel , , pour chaque montre que la normalité est correcte. $\delta=1$ $a_i$ $b_i$ $a_i=0$ $b_i=1$ $k_i=2/3$ $i\geq 1$

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

— Zen
source

En effet assez normal. Bon à savoir. Les conditions habituelles pour le CLT n'ont jamais été un problème ici, ma question était de savoir s'il y avait d'autres problèmes, peut-être subtils, qui tordaient le résultat asymptotique et nécessitaient un CLT modifié. Votre simulation montre qu'en effet la discontinuité discrète devient négligeable en probabilité à mesure que davantage de variables entrent dans la somme.

— Alecos Papadopoulos

Rien de précis, mais ils ne posent aucun problème. Considérez-les comme des nombres finis bien comportés, indépendamment de l'indice . Ils peuvent augmenter ou diminuer à mesure que grandis (pas de règle spécifique), et aucun d'eux n'est disproportionnellement plus grand que les autres ... ils représentent des différences de taille d'entités néanmoins "comparables". La condition de Lindeberg tient donc très certainement

i

$i$

i

$i$

— Alecos Papadopoulos

Agréable. Bonne chance pour les prochaines étapes. On dirait un problème intéressant.

— Zen

3

Conseils:

En supposant que est fixe et que les sont indépendants, vous pouvez calculer la moyenne et la variance de chaque : par exemple et vous connaissez . $c$ $X_i$ $\mu_i$ $\sigma_i^2$ $Z_i$ $\mu_i=E[ Z_i] = c\frac{a_i+k_i}{2} + (1-c)k_i$ $k_i = ca_i + (1-c)b_i$

Ensuite, à condition que et n'augmentent pas trop rapidement, vous pouvez utiliser les conditions de Lyapunov ou Lindeberg pour appliquer le théorème de la limite centrale en concluant que converge en distribution vers une normale standard, ou dans un sens de la main est approximativement normalement distribué avec la moyenne et variance . $a_i$ $b_i$ $\displaystyle\frac{1}{\sqrt{\sum_1^n \sigma_i^2}}\left(\sum_1^n Z_i - \sum_1^n \mu_i\right)$ $\sum_1^n Z_i$ $\sum_1^n \mu_i$ $\sum_1^n \sigma_i^2$

— Henri
source

Merci. Il n'y a pas de problème avec les et , ils ne croissent pas avec l'indice, ils fluctuent juste autour. Donc, vous dites essentiellement que le CLT peut également couvrir des variables aléatoires avec des distributions mixtes?

a_{i}

$a_i$

b_{i}

$b_i$

— Alecos Papadopoulos

Si par exemple et étaient fixes, alors vous auriez des variables aléatoires indépendantes distribuées de façon identique avec une variance finie, donc le théorème de la limite centrale s'appliquerait. Que ce soit une distribution de mélange ou non n'affecte pas ce résultat. Ce que je dis, c'est que vous pouvez étendre cela aux cas où les variables aléatoires sont indépendantes mais ne sont pas distribuées de manière identique, à condition que les moyennes et les variances restent raisonnables.

a_{i}

$a_i$

b_{i}

$b_i$

— Henry

2

Ma principale préoccupation dans cette question était de savoir si l'on pouvait appliquer le CLT "comme d'habitude" dans le cas que j'examine. L'utilisateur @Henry a affirmé que c'était possible, l'utilisateur @Zen l'a montré à travers une simulation. Ainsi encouragé, je vais maintenant le prouver analytiquement.

Ce que je vais faire en premier est de vérifier que cette variable avec la distribution mixte a une fonction de génération de moment "habituelle". On note la valeur attendue de , son écart - type et la version centrée et mise à l' échelle de par . En appliquant la formule de changement de variable, nous constatons que la partie continue est La fonction de génération de moment de devrait être $\mu_i$ $Z_i$ $\sigma_i$ $Z_i$ $\tilde Z_i = \frac {Z_i-\mu_i}{\sigma_i}$

f_{\tilde{Z}} ({\tilde{z}}_{i}) = σ_{i} f_{Z} (z_{i}) = \frac{σ_{i}}{b_{i} - a_{i}}

$f_{\tilde Z}(\tilde z_i) = \sigma_if_Z(z_i) = \frac {\sigma_i}{b_i-a_i}$

{\tilde{Z}}_{i}

$\tilde Z_i$

{\tilde{M}}_{i} (t) = E (e^{{\tilde{z}}_{i} t}) = \int_{- \infty}^{\infty} e^{{\tilde{z}}_{i} t} d F_{\tilde{Z}} ({\tilde{z}}_{i}) = \int_{{\tilde{a}}_{i}}^{{\tilde{k}}_{i}} \frac{σ_{i} e^{{\tilde{z}}_{i} t}}{b_{i} - a_{i}} d z_{i} + c e^{{\tilde{k}}_{i} t}

$\tilde M_i(t) = E(e^{\tilde z_it}) = \int_{-\infty}^{\infty}e^{\tilde z_it}dF_{\tilde Z}(\tilde z_i) = \int_{\tilde a_i}^{\tilde k_i}\frac{\sigma_ie^{\tilde z_it}}{b_i-a_i}dz_i + ce^{\tilde k_it}$

\Rightarrow {\tilde{M}}_{i} (t) = \frac{σ_{i}}{b_{i} - a_{i}} \frac{e^{{\tilde{k}}_{i} t} - e^{{\tilde{a}}_{i} t}}{t} + c e^{{\tilde{k}}_{i} t}

$\Rightarrow \tilde M_i(t)=\frac {\sigma_i}{b_i-a_i}\frac{e^{\tilde k_it}-e^{\tilde a_it}}{t} +ce^{\tilde k_it}$ avec

{\tilde{k}}_{i} = \frac{k_{i} - μ_{i}}{σ_{i}}, {\tilde{a}}_{i} = \frac{a_{i} - μ_{i}}{σ_{i}}

$\tilde k_i = \frac {k_i-\mu_i}{\sigma_i},\;\; \tilde a_i = \frac {a_i-\mu_i}{\sigma_i}$

En utilisant des nombres premiers pour désigner les dérivées, si nous avons correctement spécifié la fonction de génération de moment, nous devrions obtenir puisque cela est une variable aléatoire centrée et mise à l'échelle. Et en effet, en calculant des dérivées, en appliquant plusieurs fois la règle de L'Hopital (puisque la valeur du MGF à zéro doit être calculée par des limites), et en faisant des manipulations algébriques, j'ai vérifié les deux premières égalités. La troisième égalité s'est avérée trop fatigante, mais j'espère qu'elle tient.

{\tilde{M}}_{i} (0) = 1, {\tilde{M}}_{i}^{'} (0) = E (\tilde{Z}) = 0 \Rightarrow {\tilde{M}}_{i}^{″} (0) = E ({\tilde{Z}}_{i}^{2}) = Var ({\tilde{Z}}_{i}) = 1

$\tilde M_i(0) = 1, \;\; \tilde M_i'(0) = E(\tilde Z) = 0 \Rightarrow \tilde M_i''(0) = E(\tilde Z_i^2) = \operatorname {Var}(\tilde Z_i)=1$

Nous avons donc un MGF approprié. Si nous prenons son expansion de Taylor de second ordre autour de zéro, nous avons

\tilde{M} (t) = \tilde{M} (0) + {\tilde{M}}^{'} (0) t + \frac{1}{2} {\tilde{M}}^{″} (0) t^{2} + o (t^{2})

$\tilde M(t) = \tilde M(0) + \tilde M'(0)t +\frac 12\tilde M''(0)t^2 + o(t^2)$

\Rightarrow \tilde{M} (t) = 1 + \frac{1}{2} t^{2} + o (t^{2})

$\Rightarrow \tilde M(t) = 1 + \frac 12t^2+ o(t^2)$

Cela implique que la fonction caractéristique est (ici désigne l'unité imaginaire) . $i$

\tilde{ϕ} (t) = 1 + \frac{1}{2} (i t)^{2} + o (t^{2}) = 1 - \frac{1}{2} t^{2} + o (t^{2})

$\tilde \phi(t) = 1 + \frac 12 (it)^2 + o(t^2)= 1 - \frac 12 t^2 + o(t^2)$

Par les propriétés de la fonction caractéristique , nous avons que la fonction caractéristique de est égale à $\tilde Z/\sqrt n$

{\tilde{ϕ}}_{\tilde{Z} / \sqrt{n}} (t) = {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = 1 - \frac{t^{2}}{2 n} + o (t^{2} / n)

$\tilde \phi_{\tilde Z/\sqrt n}(t)=\tilde \phi_{\tilde Z}(t/\sqrt n) = 1 - \frac {t^2}{2n} + o(t^2/n)$

et comme nous avons des variables aléatoires indépendantes, la fonction caractéristique de est $\frac 1{\sqrt n}\sum_i^n\tilde Z_i$

{\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = \prod_{i = 1}^{n} {\tilde{ϕ}}_{\tilde{Z}} (t / \sqrt{n}) = \prod_{i = 1}^{n} (1 - \frac{t^{2}}{2 n} + o (t^{2} / n))

$\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t)= \prod_{i=1}^n\tilde \phi_{\tilde Z}(t/\sqrt n)=\prod_{i=1}^n\left(1 - \frac {t^2}{2n} + o(t^2/n)\right)$

alors

lim_{n \to \infty} {\tilde{ϕ}}_{\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i}} (t) = lim_{n \to \infty} {(1 - \frac{t^{2}}{2 n})}^{n} = e^{- t^{2} / 2}

$\lim_{n\rightarrow \infty}\tilde \phi_{\frac 1{\sqrt n}\sum_i^n\tilde Z_i}(t) = \lim_{n\rightarrow \infty}\left(1 - \frac {t^2}{2n}\right)^n = e^{-t^2/2}$

par la façon dont le nombre est représenté $e$ . Il se trouve que le dernier terme est la fonction caractéristique de la distribution normale standard, et par le théorème de continuité de Levy , nous avons que

\frac{1}{\sqrt{n}} \sum_{i}^{n} {\tilde{Z}}_{i} \overset{d}{\to} N (0, 1)

$\frac 1{\sqrt n}\sum_i^n\tilde Z_i \xrightarrow{d} N(0,1)$

qui est le CLT. Notez que le fait que les variables ne soient pas distribuées de manière identique, a «disparu» de la vue une fois que nous avons considéré leurs versions centrées et mises à l'échelle et considéré l'expansion Taylor de second ordre de leur MGF / CHF: à ce niveau d'approximation, ces fonctions sont identiques et toutes les différences sont compactées dans les termes restants qui disparaissent asymptotiquement. $Z$

Le fait que le comportement idiosyncratique au niveau individuel, de tous les éléments individuels, disparaisse néanmoins lorsque nous considérons le comportement moyen, je pense qu'il est très bien présenté en utilisant une créature méchante comme une variable aléatoire ayant une distribution mixte.

— Alecos Papadopoulos
source

Vraiment cool, Alecos. Mon sentiment est que l'argument devrait dépendre de conditions plus spécifiques sur les et les . Par exemple: la preuve se si rapidement? (Je sais que dans votre candidature, cela ne se produit pas.) Que pensez-vous?

a_{i}

$a_i$

b_{i}

$b_i$

(b_{i} - a_{i}) ↓ 0

$(b_i-a_i)\downarrow 0$

— Zen

@Zen Le problème concernant les variances des VR indépendants mais non identiquement distribués est très subtil, je ne pense pas que je le comprends toujours clairement. Les conditions connues de Lyapunov ou Lindeberg ne sont suffisantes que pour que le CLT tienne. Il y a des cas où le CLT tient même si ces conditions ne le sont pas. Je pense donc que si nous ne limitons pas les écarts, il n'y a pas de réponse unique et le problème devient totalement spécifique au cas. Même le livre de Billingsley n'est pas clair à ce sujet. La question est de savoir à quoi ressemblera le reste et ce que nous pouvons en dire.

— Alecos Papadopoulos