Limiter la distribution de

Soit une séquence de variables aléatoires iid . Définissez et pour . Trouver la distribution limite de $(X_n)$ $\mathcal N(0,1)$ $S_0=0$ $S_n=\sum_{k=1}^n X_k$ $n\geq 1$
$\frac{1}{n} \sum_{k = 1}^{n} | S_{k - 1} | (X_{k}^{2} - 1)$ $\frac1n \sum_{k=1}^{n}|S_{k-1}|(X_k^2 - 1)$

Ce problème provient d'un livre de problèmes sur la théorie des probabilités, dans le chapitre sur le théorème de la limite centrale.

Puisque et sont indépendants, et $S_{k-1}$ $X_k$ $E(|S_{k-1}|(X_k^2 - 1))=0$

V (| S_{k - 1} | (X_{k}^{2} - 1)) = E (S_{k - 1}^{2} (X_{k}^{2} - 1)^{2}) = E (S_{k - 1}^{2}) E (X_{k}^{2} - 1)^{2}) = 2 (k - 1)

$V(|S_{k-1}|(X_k^2 - 1)) = E(S_{k-1}^2(X_k^2 - 1)^2)= E(S_{k-1}^2)E(X_k^2 - 1)^2) =2(k-1)$

Notez que les sont clairement pas indépendants. Le problème vient des problèmes de probabilités de Shiryaev , qui est lui-même basé sur le manuel du même auteur. Le manuel ne semble pas couvrir le CLT pour les variables corrélées. Je ne sais pas s'il y a une séquence de mixage stationnaire qui se cache quelque part ... $|S_{k-1}|(X_k^2 - 1)$

J'ai exécuté des simulations pour avoir une idée de la réponse

import numpy as np
import scipy as sc
import scipy.stats as stats
import matplotlib.pyplot as plt

n = 20000 #summation index
m = 2000 #number of samples

X = np.random.normal(size=(m,n))
sums = np.cumsum(X, axis=1)
sums = np.delete(sums, -1, 1)
prods = np.delete(X**2-1, 0, 1)*np.abs(sums)
samples = 1/n*np.sum(prods, axis=1)

plt.hist(samples, bins=100, density=True)
x = np.linspace(-6, 6, 100)
plt.plot(x, stats.norm.pdf(x, 0, 1/np.sqrt(2*np.pi)))
plt.show()

Vous trouverez ci-dessous un histogramme de échantillons ( ). Il semble assez distribué normalement ... $2000$ $n=20.000$

— Gabriel Romon
source

@MartijnWeterings J'ai posté cela parce que j'ai réfléchi au problème pendant un certain temps et je suis coincé. C'est probablement loin d'être anodin ...

— Gabriel Romon

@MartijnWeterings , d'où

E (| S_{k - 1} | (X_{k}^{2} - 1)) = 0

$E(|S_{k-1}|(X_k^2 - 1)) = 0$

V (| S_{k - 1} | (X_{k}^{2} - 1)) = E (S_{k - 1}^{2} (X_{k}^{2} - 1)^{2})

$V(|S_{k-1}|(X_k^2 - 1)) = E(S_{k-1}^2(X_k^2 - 1)^2)$

— Gabriel Romon

@MartijnWeterings Oui, j'ai omis l'égalité triviale pour ...

| x |^{2} = x^{2}

$|x|^2=x^2$

x \in R

$x\in \mathbb R$

— Gabriel Romon

L'histogramme dans la simulation est une correspondance terrible pour la distribution normale. Si vous n'êtes pas convaincu, calculez le kurtosis.

— whuber

@MartijnWeterings Oui, j'ai fait une omission embarrassante dans le code. Je l'ai mis à jour, ainsi que l'histogramme, qui ressemble à un histogramme normal. Avez-vous une idée de la valeur exacte de la variance?

— Gabriel Romon

Lorsque je simule la distribution, j'obtiens quelque chose qui ressemble à une distribution Laplace. Encore mieux semble être un q-Gausian (les paramètres exacts que vous devriez trouver en utilisant la théorie).

Je suppose que votre livre doit contenir une variation du CLT qui se rapporte à cela (théorème de la limite centrale généralisée q, c'est probablement dans la section 7.6 Le théorème de la limite centrale pour les sommes des variables dépendantes , mais je ne peux pas le chercher car je n'ont pas le livre à disposition).

library(qGaussian)
set.seed(1)
Qstore <- c(0) # vector to store result

n <- 10^6  # columns X_i
m <- 10^2  # rows repetitions

pb <- txtProgressBar(title = "progress bar", min = 0,
                     max = 100, style=3)
for (i in 1:100) {  
  # doing this several times because this matrix method takes a lot of memory
  # with smaller numbers n*m it can be done at once

  X <- matrix(rnorm(n*m,0,1),m)
  S <- t(sapply(1:m, FUN = function(x) cumsum(X[x,])))
  S <- cbind(rep(0,m),S[,-n])
  R <- abs(S)*(X^2-1)
  Q <- t(sapply(1:m, FUN = function(x) cumsum(R[x,])))

  Qstore <- c(Qstore,t(Q[,n]))
  setTxtProgressBar(pb, i)
}
close(pb)

# compute histogram 
x <- seq(floor(min(Qstore/n)), ceiling(max(Qstore/n)), 0.2)
h <- hist(Qstore/(n),breaks = x)

# plot simulation
plot( h$mid, h$density, log = "y", xlim=c(-7,7),
      ylab = "log density" , xlab = expression(over(1,n)*sum(abs(S[k-1])*(X[k]^2-1),k==1,n) ) )

# distributions for comparison
lines(x, dnorm(x,0,1),                   col=1, lty=3)      #normal 
lines(x, dexp(abs(x),sqrt(2))/2,         col=1, lty=2)      #laplace
lines(x, qGaussian::dqgauss(x,sqrt(2),0,1/sqrt(2)), col=1, lty=1)      #qgauss

# further plotting
title("10^4 repetitions with n=10^6")
legend(-7,0.6,c("Gaussian", "Laplace", "Q-Gaussian"),col=1, lty=c(3,2,1),cex=0.8)

— Sextus Empiricus
source

Concernant le contenu du manuel, il vaut mieux que vous le voyiez par vous-même: Volume 1 , Volume 2 . Le problème ne devrait nécessiter que du matériel couvert dans le chapitre 3.4

— Gabriel Romon

@GabrielRomon merci beaucoup pour ces liens. En le regardant, depuis mon téléphone, je n'ai rien trouvé sur la distribution q-gaussienne ou d'autres distributions limites qui ne sont pas une distribution normale. Donc, soit la distribution a une convergence très lente n >> 10 ^ 6 avant de la voir , soit la question ne correspond pas au chapitre (est-ce du livre, je n'ai pas pu trouver la question?). Un tracé des moments d'ordre supérieur (en fonction de n) pourrait mieux montrer si la conversion pourrait toujours se produire, mais je suppose que ce n'est pas un cas typique de CLT.

— Sextus Empiricus

Il s'agit du problème 3.4.14 dans le livre de problèmes .

— Gabriel Romon