Théorème de la limite centrale et distribution de Pareto

Quelqu'un peut-il fournir une explication simple (profane) de la relation entre les distributions de Pareto et le théorème central limite (par exemple, s'applique-t-il? Pourquoi / pourquoi pas?)? J'essaie de comprendre la déclaration suivante:

"Le théorème de la limite centrale ne fonctionne pas avec chaque distribution. Cela est dû à un fait sournois: les moyennes des échantillons sont regroupées autour de la moyenne de la distribution sous-jacente si elle existe. Mais comment une distribution peut-elle ne pas avoir de moyenne? Eh bien, une distribution commune qui n'a aucun moyen est la distribution de Pareto. Si vous tentiez de la calculer en utilisant les méthodes habituelles, elle divergerait à l'infini. "

— user1222447
source

Réponses:

L'énoncé n'est pas vrai en général - la distribution de Pareto a une moyenne finie si son paramètre de forme ( au lien) est supérieur à 1. $\alpha$

Lorsque la moyenne et la variance existent ( ), les formes habituelles du théorème de la limite centrale - par exemple classique, Lyapunov, Lindeberg s'appliqueront $\alpha>2$

Voir la description du théorème de la limite centrale classique ici

La citation est un peu bizarre, car le théorème central limite (dans l'une des formes mentionnées) ne s'applique pas à la moyenne de l'échantillon lui-même, mais à une moyenne standardisée (et si nous essayons de l'appliquer à quelque chose dont la moyenne et la variance sont non finis, nous aurions besoin d'expliquer très soigneusement de quoi nous parlons réellement, puisque le numérateur et le dénominateur impliquent des choses qui n'ont pas de limites finies).

Néanmoins (bien qu'il ne soit pas tout à fait correctement exprimé pour parler de théorèmes centraux), il a quelque chose d'un point sous-jacent - la moyenne de l'échantillon ne convergera pas vers la moyenne de la population (la loi faible des grands nombres ne tient pas, puisque l'intégrale définissant la moyenne n'est pas finie).

Comme le souligne à juste titre kjetil dans les commentaires, si nous voulons éviter que le taux de convergence soit terrible (c'est-à-dire pour pouvoir l'utiliser dans la pratique), nous avons besoin d'une sorte de limite sur "jusqu'où" / "à quelle vitesse" le l'approximation entre en jeu. Il est inutile d'avoir une approximation adéquate pour (par exemple) si nous voulons une utilisation pratique à partir d'une approximation normale. $n> 10^{10^{100}}$

Le théorème de la limite centrale concerne la destination mais ne nous dit rien sur la vitesse à laquelle nous y arrivons; il existe cependant des résultats comme le théorème de Berry-Esseen qui limitent le taux (dans un sens particulier). Dans le cas de Berry-Esseen, il délimite la plus grande distance entre la fonction de distribution de la moyenne normalisée et le cdf normal standard en termes de troisième moment absolu ( ). $E(|X|^3)$

Donc, dans le cas de Pareto, si , nous pouvons au moins obtenir une limite sur la gravité de l'approximation à un et sur la vitesse à laquelle nous y arrivons. (D'un autre côté, limiter la différence dans cdfs n'est pas nécessairement une chose particulièrement "pratique" à limiter - ce qui vous intéresse peut ne pas être particulièrement bien lié à une limite sur la différence de zone de queue). Néanmoins, c'est quelque chose (et dans au moins certaines situations, une liaison cdf est plus directement utile). $\alpha\gt 3$ $n$

— Glen_b -Reinstate Monica
source

Mais si la variance existe à peine, c'est-à-dire mais très proche, le théorème de la limite centrale, tout en s'appliquant en principe, peut conduire à de très mauvaises approximations. Pour avoir un certain contrôle sur la qualité de l'approximation, vous avez besoin de quelque chose comme le théorème de Berry-Esseen, qui nécessite des troisièmes moments, c'est-à-dire .

α > 2

$\alpha > 2$

α > 3

$\alpha > 3$

— kjetil b halvorsen

@kjetil tout à fait ainsi; en pratique, vous avez besoin de plus que des secondes, car la convergence peut être inutilement lente.

— Glen_b -Reinstate Monica

Oui, je vais ajouter une réponse pour le montrer!

— kjetil b halvorsen

Certaines distributions qui ne suivent pas le théorème de la limite centrale peuvent être normalisées pour converger vers une loi stable.

— Michael R. Chernick

Grande discussion ici. J'aimerais que stackexchange ait un moyen de suivre les réponses / commentaires des gens;)

— Chan-Ho Suh

J'ajouterai une réponse montrant à quel point l'approximation du théorème de la limite centrale (CLT) peut être mauvaise pour la distribution de pareto, même dans le cas où les hypothèses pour CLT sont remplies. L'hypothèse est qu'il doit y avoir une variance finie, ce qui pour le pareto signifie que . Pour une discussion plus théorique de pourquoi il en est ainsi, voir ma réponse ici: Quelle est la différence entre la variance finie et infinie $\alpha > 2$

Je vais simuler les données de la distribution de pareto avec le paramètre , de sorte que la variance "existe à peine". Refaire mes simulations avec pour voir la différence! Voici un code R: $\alpha=2.1$ $\alpha=3.1$

###  Pareto dist and the central limit theorem
###
require(actuar) # for (dpqr)pareto1()
require(MASS) #  for Scott()
require(scales) # for alpha()
# We use (dpqr)pareto1(x,alpha,1)
#
alpha <- 2.1  #  variance just barely exist
E <-  function(alpha) ifelse(alpha <= 1,Inf,alpha/(alpha-1))
VAR <- function(alpha) ifelse(alpha <= 2,Inf,alpha/((alpha-1)^2 * (alpha-2)))

R <- 10000
e <-  E(alpha)
sigma  <-  sqrt(VAR(alpha))
sim <-  function(n) {
    replicate(R, {x <- rpareto1(n,alpha,1)
        x <- x-e
        mean(x)*sqrt(n)/sigma },simplify=TRUE)
}
sim1 <- sim(10)
sim2 <- sim(100)
sim3 <- sim(1000)
sim4 <- sim(10000) # do take some time ...

### These are standardized so have all theoretically variance 1.
### But due to the long tail, the empirical variances are (surprisingly!) much lower:

sd(sim1)
sd(sim2)
sd(sim3)
sd(sim4)

### Now we plot the histograms:
    hist(sim1,prob=TRUE,breaks="Scott",col=alpha("grey05",0.95),main="simulated pareto means",xlim=c(-1.8,16))
hist(sim2,prob=TRUE,breaks="Scott",col=alpha("grey30",0.5),add=TRUE)
hist(sim3,prob=TRUE,breaks="Scott",col=alpha("grey60",0.5),add=TRUE)
hist(sim4,prob=TRUE,breaks="Scott",col=alpha("grey90",0.5),add=TRUE)
plot(dnorm,from=-1.8,to=5,col=alpha("red",0.5),add=TRUE)

Et voici l'intrigue:

On peut voir que même à une taille d'échantillon nous sommes loin de l'approximation normale. Le fait que les variances empiriques soient tellement inférieures à la vraie variance théorique est dû au fait que nous avons une très grande contribution à la variance des parties de la distribution dans l'extrême droite qui n'apparaissent pas dans la plupart des échantillons. Il faut s'y attendre toujours, lorsque la variance «existe à peine» $n=10000$ $\sigma^2=1$ . Une façon pratique de penser à cela est la suivante. Les distributions de Pareto sont souvent proposées pour modéliser les distributions de revenu (ou de richesse). L'espérance de revenu (ou de richesse) aura une très grande contribution des quelques milliards de dollars. L'échantillonnage avec des tailles d'échantillon pratiques aura une très faible probabilité d'inclure des milliards dans l'échantillon!

— kjetil b halvorsen
source

J'aime les réponses déjà données mais je pense qu'il y a un peu de technique pour une "explication de profane" donc je vais essayer quelque chose de plus intuitif (en commençant par une équation ...).

La moyenne de la densité est définie comme: Donc, en gros, la moyenne est la "somme sur " du produit entre la densité en et elle-même. Lorsque tend vers l'infini, la densité en doit disparaître suffisamment pour que le produit ne passe pas à l'infini (et par conséquent la somme également). Lorsque ne disparaît pas suffisamment, le produit va à l'infini, l'intégrale va à l'infini, n'existe pas et, finalement, n'a pas de moyenne. C'est le cas de Pareto pour certaines valeurs de paramètres. $p$

μ = \int x \cdot p (x) d x

$\mu = \int x \cdot p(x) dx$

x

$x$

x

$x$

x

$x$

x

$x$

p (x)

$p(x)$

x \cdot p (x)

$x \cdot p(x)$

p (x)

$p(x)$

μ

$\mu$

p

$p$

Ensuite, le théorème central limite établit une distribution de la distance entre la moyenne empirique $\bar{x}=\frac{1}{n} \sum_i x_i$ $\mu$ $p$ $n$ $n$ $\bar{x}$ $n$ $p$

N=10000;
x=rnorm(N,1,1);
y=rep(NA,N);
for(index in seq(1,N))
{
y[index]=mean(x[1:index])
}
png('~/Desktop/normalMean.png')
plot(y,type='l',xlab='n',ylab='sum(x_i)/n')
dev.off()

C'est une réalisation typique, la moyenne de l'échantillon converge assez correctement vers la moyenne de densité (et en moyenne de la manière donnée par le théorème de la limite centrale). Faisons de même pour une distribution de pareto sans moyenne (substituant rnorm (N, 1,1); par pareto (N, 1.1,1);)

$p(x) \cdot x$ $x$ $x$

$n$ $\int (x-\mu)^2 p(x) dx$

— peuhp
source