Existe-t-il quelqu'un plus vite qu'Usain Bolt aujourd'hui?

EDIT: Je suis plus intéressé par les problèmes techniques et la méthodologie de détermination de la probabilité d'un "vrai" maximum dans une population donnée, à partir d'un échantillon statistique. Il y a des problèmes d'estimation de la probabilité de coureurs plus rapides que M. Bolt à partir de temps de tiret record qui sont à la fois évidents et subtils. Faites-moi plaisir en imaginant que ce n'est pas le cas.

Usain Bolt est l'humain le plus rapide mesuré pour le 100m. Cependant, étant donné le petit nombre d'athlètes, il semble probable que le "vrai" humain le plus rapide en vie soit assis quelque part sur un canapé et n'ait jamais tenté une carrière de course compétitive.

J'essaie d'utiliser le fait que la différence entre les échantillons aux queues de la distribution normale devient de plus en plus petite. J'utilise ceci pour calculer la probabilité qu'il existe quelqu'un plus rapidement qu'Usain Bolt en comparant Usain au 2e plus rapide, au 3e plus rapide et ainsi de suite.

Pour ce faire, j'essaie de calculer la plus grande valeur qui existe au-delà de "Usain Bolt" en prenant la dérivée du CDF de la distribution normale par rapport à $y$ , en élevant celle-ci au $n$ ème (où $n$ est d'environ 7 000 000 000 ou le nombre de des échantillons inférieurs au "maximum" - la logique derrière cela est décrite dans la page Wikipédia sur le problème des chars allemands qui généralise parmi les différentes distributions), par exemple:

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

Est-ce un moyen valable pour calculer la probabilité qu'il existe quelqu'un plus rapidement qu'Usain Bolt?
Y a-t-il un nom pour ce genre de question en dehors de "Problème de char allemand pour d'autres distributions"
Existe-t-il un bon moyen d'estimer l'écart type par rapport aux échantillons extrêmes d'une distribution? Il est facile de trouver des informations sur les tirets de 100 m les plus rapides de tous les temps, il est difficile de trouver des moyennes et des écarts)

Merci de votre patience face à un programmeur sans expérience dans le sujet.

normal-distribution maximum

— ŹV -
source

Vous faites l'hypothèse que si vous êtes un athlète est indépendant de votre vitesse de course. Ce qui est correct, mais discutable.

— bayerj

@bayerj Oui, je pense qu'il est assez clair que ce serait une très mauvaise façon de prédire le prochain challenger olympique. Cependant, cela semble être une question intéressante en général et j'essaie d'y répondre au mieux de mes capacités avec l'espoir que quelqu'un prenne pitié et m'aide.

— ŹV -

Je trouve que la question est mal posée car la qualité d'être "rapide (er)", ici, fait référence à un potentiel génétique ou à un talent sportif et non à la capacité réelle d'atteindre une vitesse élevée.

— Digio

@Digio Remplacez "plus rapidement" par "a un numéro de série plus élevé" en supposant que "Fubarco" fabrique un ensemble de produits avec des numéros de série normalement distribués.

— ŹV -

Motiver une question avec un exemple est généralement une bonne chose à faire. Cependant, cet exemple semble distraire les gens de ce que vous essayez vraiment de demander. Pourriez-vous modifier cela pour discuter de la situation à laquelle vous êtes vraiment confronté?

— gung - Réintégrer Monica

Réponses:

Contrairement à d'autres réponses, je dirais que vous pouvez dire quelque chose sur les capacités de Bolts compte tenu des données disponibles. Tout d'abord, affinons votre question. Vous posez des questions sur les humains les plus rapides, mais comme il existe une différence dans les répartitions des vitesses de course pour les hommes et les femmes, où les meilleures femmes coureuses, les femmes semblent être légèrement plus lentes que les meilleurs hommes, nous devons nous concentrer sur les hommes coureurs. Pour obtenir des données, nous pouvons regarder les meilleures performances de l'année sur 100 courses des 45 dernières années . Il y a plusieurs choses à noter à propos de ces données:

Ce sont les meilleurs temps de course, donc ils ne nous parlent pas des capacités de tous les humains, mais des vitesses minimales atteintes.
Nous supposons que ces données reflètent un échantillon des meilleurs coureurs du monde. Même s'il se peut qu'il y ait eu de meilleurs coureurs qui n'ont pas participé aux championnats, cette hypothèse semble assez raisonnable.

Voyons d'abord comment ne pas analyser ces données. Vous pourriez remarquer que si nous traçons les temps de fonctionnement en fonction du temps, nous observerions une forte relation linéaire.

Cela pourrait vous amener à utiliser la régression linéaire pour prévoir combien de meilleurs coureurs nous pourrions observer au cours des prochaines années. Ce serait cependant une très mauvaise idée, qui vous conduirait inévitablement à la conclusion que dans environ deux mille ans, les humains seraient capables de courir 100 mètres en zéro seconde, et ensuite ils commenceraient à atteindre les temps de course négatifs! C'est évidemment absurde, car nous pouvons imaginer qu'il existe une sorte de limite biologique et physique de nos capacités, qui nous est inconnue.

$Y = \max(X_1,X_2,\dots,X_n)$ $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$ suivent une distribution GEV pour les minimas. Nous pouvons donc adapter la distribution GEV aux données de vitesse de fonctionnement, ce qui conduit à un ajustement assez agréable (voir ci-dessous).

Si vous regardez la distribution cumulative suggérée par le modèle, vous remarquerez que le meilleur temps de fonctionnement d'Usain Bolt est dans le le plus bas $1\%$ queue de la distribution. Donc, si nous nous en tenons à ces données et à cette analyse d'exemples de jouets, nous conclurions que les durées de fonctionnement beaucoup plus petites sont peu probables (mais évidemment, possibles). Le problème évident de cette analyse est qu'elle ne tient pas compte du fait que nous avons constaté d'année en année des améliorations des meilleurs temps de fonctionnement. Cela nous ramène au problème décrit dans la première partie de la réponse, à savoir que l'hypothèse d'un modèle de régression ici est risquée. Une autre chose qui pourrait être améliorée est que nous pourrions utiliser l'approche bayésienne et supposer une information préalable qui expliquerait certaines connaissances hors données sur les temps de fonctionnement physiologiquement possibles, qui pourraient ne pas encore être observées (mais, pour autant que je sache, ceci est inconnu pour le moment). Enfin, une théorie similaire des valeurs extrêmes a déjà été utilisée dans la recherche sportive, par exemple par Einmahl et Magnus (2008) dans leRecords in Athletics Through Extreme-Value Theory paper.

Vous pourriez protester que vous n'avez pas posé de questions sur la probabilité d'un temps de course plus rapide, mais sur la probabilité d'observer un coureur plus rapide. Malheureusement, ici, nous ne pouvons pas faire grand-chose car nous ne savons pas quelle est la probabilité qu'un coureur devienne un athlète professionnel et les temps de course enregistrés seront disponibles pour lui. Cela ne se produit pas au hasard et de nombreux facteurs contribuent au fait que certains coureurs deviennent des athlètes professionnels et d'autres pas (ou même que quelqu'un aime courir et courir du tout). Pour cela, il faudrait disposer de données détaillées sur les coureurs à l'échelle de la population, de plus, puisque vous posez des questions sur les extrêmes de la distribution, les données devraient être très importantes. Donc là-dessus, je suis d'accord avec les autres réponses.

— Tim
source

Mon premier instinct est que c'est une mauvaise idée, mais permettez-moi de vous expliquer un peu pourquoi.

1) Vous voulez mesurer une variable de course inobservable, une compétence de course latente, avec une performance observable, des temps de course enregistrés. C'est ok, mais: Dans le problème des chars allemands, les numéros de série sont tous générés à partir de la même distribution uniforme. Dans votre problème, vous devez déduire la compétence variable latente (de 7 milliards de personnes) des temps d'exécution variables observables. Dans le GTP, plusieurs numéros de série sont connus. Dans votre problème, vous n'avez collecté aucune donnée et vous ne faites que le maximum (Bolt). De plus, vous semblez supposer que cette compétence latente inobservable n'est pas corrélée aux durées de fonctionnement réelles au point où il est possible que quelqu'un qui n'a jamais couru soit meilleur que Bolt. Cela semble juste absurde!

2) Les athlètes ne sont pas des échantillons aléatoires de la population. Ils sont soigneusement sélectionnés par plusieurs essais. Si nous supposons que tout le monde capable de courir a probablement couru quelqu'un au moins une fois dans sa vie et que chaque personne a décidé si elle devrait continuer à un niveau de compétition plus élevé en fonction de la fréquence ou du montant de ses victoires races --- alors il ne semble pas aussi invraisemblable que Bolt soit vraiment l'être humain le plus rapide qui soit.

Ce ne sont que les premières raisons qui me viennent à l'esprit. Honnêtement, vous êtes en train de faire un peu la course du fou avec ça. Il n'y a aucun moyen de mesurer la "probabilité" du genre de chose dont vous parlez.

— toile de jute dégénérée
source

Un autre répondant a fait des remarques similaires et il est sans aucun doute vrai que l'estimation de la probabilité qu'il existe quelqu'un plus rapidement que M. Bolt sur cette base est très erronée. Il serait également plus intéressant de savoir si la logique technique de prédiction basée sur ces valeurs extrêmes est correcte en principe.

— ŹV -

Je suggérerais alors de résumer la question pour aller au cœur de ce que vous essayez de demander, car le contexte va créer beaucoup de distraction. Je ne sais toujours pas ce que représente la "distribution normale" à laquelle vous faites référence. Temps d'exécution réels? Capacité de course des athlètes?

— jute dégénérée

-2

La réponse est non.

Vous supposez qu'il y a un échantillon de la population (athlètes), et Bolt est le maximum sur cet échantillon. Donc, vous cherchez la probabilité que le max de la population soit supérieur au max de l'échantillon. Voilà votre hypothèse.

Et si votre hypothèse était fausse et que l'échantillon était bien la population?

Je peux faire un argument raisonnable que chaque personne qui peut courir a eu une chance de le battre. Personne ne l'a fait, c'est donc le véritable max de la population de la Terre.

Il est clair que les athlètes ne sont pas un échantillon aléatoire. J'espère que cela ne fait aucun doute. Il y a un certain degré de hasard dans la façon dont on devient un athlète, bien sûr. D'un autre côté, si l'on n'est pas un athlète, ses compétences et ses réalisations athlétiques ne seront pas comparables à l'athlète. Je peux supposer que quelqu'un POURRAIT POTENTIELLEMENT courir plus vite que Bolt étant donné toutes les conditions pour s'entraîner ET S'AVOIR entraîné aussi fort que Bolt. Cependant, il n'y a aucune probabilité que vous tiriez un non-athlète et il bat Bolt en 100 m de tiret dans des conditions d'athlétisme.

— Aksakal
source

Je suis plus intéressé par la méthodologie derrière c'est correct, imaginez des Tanks dont les numéros de série sont normalement distribués avec des doublons au lieu de la vitesse de course peut-être :)

— ŹV -