J'ai demandé pourquoi il y avait une différence entre la moyenne du maximum de 100 tirages d'une distribution normale aléatoire et le 98e centile de la distribution normale. La réponse que j'ai reçue de Rob Hyndman était généralement acceptable, mais trop dense techniquement pour être acceptée sans révision. Je me demandais s'il était possible de fournir une réponse qui explique dans un langage simple intuitivement compréhensible pourquoi ces deux valeurs ne sont pas égales.
En fin de compte, ma réponse peut être circulaire insatisfaisante; mais conceptuellement, la raison max (rnorm (100)) a tendance à être supérieure à qnorm (.98) est, en bref, parce qu'en moyenne le plus élevé de 100 scores aléatoires normalement distribués dépassera parfois sa valeur attendue. Cependant, cette distorsion n'est pas symétrique, car lorsque des scores faibles sont tirés, il est peu probable qu'ils finissent par être les plus élevés des 100 scores. Chaque tirage indépendant est une nouvelle chance de dépasser la valeur attendue, ou d'être ignoré car la valeur obtenue n'est pas le maximum des 100 valeurs tirées. Pour une démonstration visuelle comparez l'histogramme du maximum de 20 valeurs à l'histogramme du maximum de 100 valeurs, la différence de biais, en particulier dans les queues, est flagrante.
Je suis arrivé à cette réponse indirectement en travaillant sur un problème / question connexe que j'avais posé dans les commentaires. Plus précisément, si je trouvais que les résultats des tests de quelqu'un étaient classés dans le 95e centile, je m'attendrais à ce qu'en moyenne, si je les mettais dans une pièce avec 99 autres candidats au test, leur classement serait en moyenne de 95. Cela se révèle être plus ou moins le cas (code R) ...
for (i in 1:NSIM)
{
rank[i] <- seq(1,100)[order(c(qnorm(.95),rnorm(99)))==1]
}
summary(rank)
Dans le prolongement de cette logique, je m'attendais également à ce que si je prenais 100 personnes dans une pièce et sélectionnais la personne avec le 95e score le plus élevé, puis que 99 autres personnes et les fassent passer le même test, qu'en moyenne la personne sélectionnée serait être classé 95e dans le nouveau groupe. Mais ce n'est pas le cas (code R) ...
for (i in 1:NSIM)
{
testtakers <- rnorm(100)
testtakers <- testtakers[order(testtakers)]
testtakers <- testtakers[order(testtakers)]
ranked95 <- testtakers[95]
rank[i] <- seq(1,100)[order(c(ranked95,rnorm(99)))==1]
}
summary(rank)
Ce qui différencie le premier cas du deuxième cas, c'est que dans le premier cas, le score de l'individu le place exactement au 95e centile. Dans le deuxième cas, leur score peut s'avérer légèrement supérieur ou inférieur au vrai 95e centile. Puisqu'ils ne peuvent pas classer plus haut que 100, les groupes qui produisent un score de rang 95 qui est en fait au 99e centile ou plus ne peuvent pas compenser (en termes de rang moyen) les cas où le score de rang 95 est beaucoup plus bas que le vrai 90e centile. Si vous regardez les histogrammes pour les deux vecteurs de rang fournis dans cette réponse, il est facile de voir qu'il y a une restriction de plage dans les extrémités supérieures qui est une conséquence de ce processus que j'ai décrit.