Cette distribution discrète a-t-elle un nom?

Cette distribution discrète a-t-elle un nom? Pour $i \in 1...N$

$f(i) = \frac{1}{N} \sum_{j = i}^N \frac{1}{j}$

Je suis tombé sur cette distribution parmi les éléments suivants: J'ai une liste de éléments classés par une fonction d'utilité. Je souhaite sélectionner au hasard l'un des éléments, en privilégiant le début de la liste. Donc, je choisis d'abord un indice entre 1 et uniformément. Je sélectionne ensuite un élément entre les indices 1 et . Je crois que ce processus aboutit à la distribution ci-dessus. $N$ $j$ $N$ $j$

— À M
source

Ce n'est pas une distribution: elle n'est pas normalisée.

— whuber

@whuber Je le pensais au début (et j'ai commenté avant de réaliser que j'avais mal compris et supprimé le commentaire), mais il s'est avéré que j'ai mal compris la définition. Sauf si j'ai un autre malentendu, c'est une fonction de masse de probabilité normalisée.

— Glen_b -Reinstate Monica

C'est normalisé. 1/1 apparaîtra dans la somme exactement une fois (ce sera dans f (1)). 1/2 apparaîtra exactement deux fois (il sera en f (1) et f (2)). etc. Ainsi, la somme de toutes ces sommes sera N et la constante de normalisation est indiquée par 1 / N. vérifie.

— rcorty

Plus précisément, cependant, je ne sais pas comment cette distribution est appelée. Je ne sais pas non plus comment le processus que vous avez décrit conduit à cette distribution. J'ai pensé que cela ressemblait à une version discrète d'un processus de bris de bâton, ce qui est très googlable.

— rcorty

@Glen_b Merci. Je lisais sur mon téléphone, ce qui ne rend pas

assez clairement.

f

$f$

— whuber

Réponses:

Vous avez une version discrétisée de la distribution log négative, c'est-à-dire la distribution dont le support est et dont le pdf est . $[0, 1]$ $f(t) = - \log t$

Pour voir cela, je vais redéfinir votre variable aléatoire pour prendre des valeurs dans l'ensemble au lieu de et appeler le distribution résultante . Ensuite, ma réclamation est que $\{ 0, 1/N, 2/N, \ldots, 1 \}$ $\{0, 1, 2, \ldots, N \}$ $T$

P r (T = \frac{t}{N}) \to - \frac{1}{N} \log (\frac{t}{N})

$Pr\left( T = \frac{t}{N} \right) \rightarrow - \frac{1}{N} \log \left( \frac{t}{N} \right)$

comme tandis que $N, t \rightarrow \infty$ est maintenu (approximativement) constant. $\frac{t}{N}$

Tout d'abord, une petite expérience de simulation démontrant cette convergence. Voici une petite implémentation d'un échantillonneur de votre distribution:

t_sample <- function(N, size) {
  bounds <- sample(1:N, size=size, replace=TRUE)
  samples <- sapply(bounds, function(t) {sample(1:t, size=1)})
  samples / N
}

Voici un histogramme d'un grand échantillon tiré de votre distribution:

ss <- t_sample(100, 200000)
hist(ss, freq=FALSE, breaks=50)

entrez la description de l'image ici

et voici le pdf logarithmique superposé:

linsp <- 1:100 / 100
lines(linsp, -log(linsp))

entrez la description de l'image ici

Pour voir pourquoi cette convergence se produit, commencez par votre expression

P r (T = \frac{t}{N}) = \frac{1}{N} \sum_{j = t}^{N} \frac{1}{j}

$Pr \left( T = \frac{t}{N} \right) = \frac{1}{N} \sum_{j=t}^N \frac{1}{j}$

et multiplier et diviser par $N$

P r (T = \frac{t}{N}) = \frac{1}{N} \sum_{j = t}^{N} \frac{N}{j} \frac{1}{N}

$Pr \left( T = \frac{t}{N} \right) = \frac{1}{N} \sum_{j=t}^N \frac{N}{j} \frac{1}{N}$

$g(x) = \frac{1}{x}$ $\frac{t}{N}$ $1$ $N$

P r (T = \frac{t}{N}) \approx \frac{1}{N} \int_{\frac{t}{N}}^{1} \frac{1}{x} d x = - \frac{1}{N} \log (\frac{t}{N})

$Pr \left( T = \frac{t}{N} \right) \approx \frac{1}{N} \int_{\frac{t}{N}}^1 \frac{1}{x} dx = - \frac{1}{N} \log \left( \frac{t}{N} \right)$

qui est l'expression à laquelle je voulais arriver.

— Matthew Drury
source

Vous êtes extrêmement bienvenu. C'était une excellente question et j'ai eu beaucoup de plaisir à travailler dessus.

— Matthew Drury

Cela semble être lié à la distribution de Whitworth. (Je ne crois pas que ce soit la distribution de Whitworth, car si je me souviens bien, c'est la distribution d'un ensemble de valeurs ordonnées, mais elle semble y être connectée et s'appuie sur le même schéma de sommation.)

Il y a une discussion sur le Whitworth (et de nombreuses références) dans

Anthony Lawrance et Robert Marks, (2008)
«Distribution des tailles d'entreprises dans une industrie aux ressources limitées»,
Applied Economics , vol. 40, numéro 12, pages 1595-1607

(Il semble y avoir une version papier de travail ici )

Regarde aussi

Nancy L Geller, (1979)
Un test de signification pour la distribution de Whitworth,
Journal de l'American Society for Information Science , Vol.30 (4), pp.229-231

— Glen_b -Reinstate Monica
source

Pour rendre cette réponse autonome, pourriez-vous fournir une définition de la distribution de Whitworth et peut-être fournir quelques mots d'explication concernant la connexion que vous voyez?

— whuber

@whuber Oui, ce devrait être un commentaire en l'état. Je vais modifier certains détails dans mais ça va finir beaucoup plus longtemps.

— Glen_b -Reinstate Monica

Juste une sorte de définition serait bien.

— whuber

Merci, c'était entendu, mais ce sera quand même le résultat.

— Glen_b -Reinstate Monica