Calcul de la distribution à partir de min, moyenne et max

Supposons que j'ai le minimum, la moyenne et le maximum de certains ensembles de données, disons 10, 20 et 25. Y a-t-il un moyen de:

créer une distribution à partir de ces données, et
savoir quel pourcentage de la population se situe probablement au-dessus ou au-dessous de la moyenne

Éditer:

Selon la suggestion de Glen, supposons que nous avons un échantillon de 200.

— user132053
source

(1) est facile, car il existe de nombreuses solutions. (2) est mieux fait dans le contexte de certaines hypothèses sur la forme distributionnelle, sinon vous ne pouvez obtenir que des limites mathématiques.

— whuber

Vous êtes pris littéralement ici dans les commentaires et les réponses jusqu'à présent, mais une prudence nécessaire (tacite, je pense, dans les remarques de @ whuber) est qu'il existe tellement de distributions compatibles avec de telles informations que vous ne devez pas en déduire que vous avez suffisamment d'informations pour le faire bien ou de manière fiable. En particulier, si vous ne connaissez même pas la taille de l'échantillon, vous ne pouvez pas faire grand-chose même pour penser à l'incertitude.

— Nick Cox

Lorsque vous posez des questions sur la proportion de la population qui "se situe au-dessus ou au-dessous de la moyenne" ... demandez-vous par rapport à la moyenne de l'échantillon ou à la moyenne de la population là-bas? Parlons-nous de variables continues ou discrètes? Connaissons-nous la taille de l'échantillon?

— Glen_b -Reinstate Monica

Réponses:

J'ai le minimum, la moyenne et le maximum de certains ensembles de données, disons 10, 20 et 25. Y a-t-il un moyen de:

créer une distribution à partir de ces données, et

Il existe un nombre infini de distributions possibles qui seraient cohérentes avec ces quantités d'échantillon.

savoir quel pourcentage de la population se situe probablement au-dessus ou au-dessous de la moyenne

En l'absence de certaines hypothèses probablement injustifiées, pas en général - du moins pas avec beaucoup de sens que cela aura un sens. Les résultats dépendront en grande partie de vos hypothèses (il n'y a pas beaucoup d'informations dans les valeurs elles-mêmes, bien que certains arrangements particuliers donnent des informations utiles - voir ci-dessous).

Il n'est pas difficile de trouver des situations où les réponses à la question des proportions peuvent être très différentes. Lorsqu'il existe des réponses très différentes et cohérentes avec les informations, comment sauriez-vous dans quelle situation vous vous trouvez?

Plus de détails peuvent donner des indices utiles mais en l'état (sans même une taille d'échantillon, bien que ce soit probablement au moins 2, ou 3 si la moyenne n'est pas à mi-chemin entre les points d'extrémité *), vous n'obtiendrez pas nécessairement beaucoup de valeur sur cette question . Vous pouvez essayer d'obtenir des limites, mais dans de nombreux cas, ils ne restreindront pas beaucoup les choses.

* en fait, si la moyenne est proche d'un point final, vous pouvez obtenir une limite inférieure sur la taille de l'échantillon. Par exemple, si au lieu de 10,20,25 pour votre min / moyenne / max vous aviez 10 24 25 alors devrait être d'au moins 15, et cela suggérerait également que la plupart de la population était supérieure à 24; c'est quelque chose. Mais si on disait 10,18,25, il est beaucoup plus difficile de se faire une idée utile de la taille de l'échantillon, sans parler de la proportion inférieure à la moyenne. $n$

— Glen_b -Reinstate Monica
source

@DJohnson Je ne pense pas que ce soit hyperbolique - c'est littéralement vrai (bien que notre capacité à les répertorier puisse échouer après quelques milliers et notre capacité à nous soucier de continuer à les répertorier puisse échouer après quelques dizaines, cela ne signifie pas il n'y a pas d'autres ensembles d'hypothèses sur lesquelles nous pourrions opérer). Il n'y avait aucune intention de condescendance dans ma formulation - elle a été délibérément choisie pour indiquer réellement l'étendue réelle des ensembles possibles d'hypothèses. Qu'aimeriez-vous que j'écrive?

— Glen_b -Reinstate Monica

1. Quelle est la raison de limiter les possibilités à deux paramètres au maximum? Que se passe-t-il si les données sont tirées d'un lognormal à trois paramètres, par exemple? Dans de nombreux cas, nous ne pouvons pas estimer tous les paramètres à partir des données, mais cela fait partie du problème que j'essaie de motiver là-bas (cela se rapporte à la discussion des hypothèses. 2. Johnson et Kotz est un sous-ensemble de ce que les gens ont nommé des distributions / J'ai travaillé avec, pas à distance une limite sur les hypothèses possibles . J'ai inventé de nombreuses distributions qui ne sont pas dans Johnson et Kotz, et ... ctd

— Glen_b -Reinstate Monica

ctd ... Je suis presque sûr qu'ils ne sont pas tous exclus ici. Même sans paramètres non spécifiés, il existe une infinité de cdfs possibles, dont un sous-ensemble non fini ne serait pas exclu par les informations spécifiées.

— Glen_b -Reinstate Monica

@Djohnson Quelle que soit l'ampleur de tout désaccord persistant, j'apprécie vos commentaires utiles. J'examinerai s'il faut au moins indiquer plus clairement ce que je dis réellement (ma réclamation réelle peut être prouvée, si elle était nécessaire, mais je peux peut-être au moins le dire clairement), et si elle devrait être formulée différemment ici.

— Glen_b -Reinstate Monica

@DJohnson Prenez deux distributions différentes remplissant les conditions: tout mélange des deux satisfera toujours auxdites conditions. C'est littéralement un infini: un non énumérable.

— Elvis

Comme déjà noté par Glen_b , il existe une infinité de possibilités. Jetez un œil aux graphiques suivants, ils montrent huit distributions différentes qui ont les mêmes valeurs min, max et moyenne.

Notez qu'ils sont très différents les uns des autres. Le premier est uniforme, le quatrième est un mélange bimodal de distributions triangulaires, le septième a la masse de probabilité la plus concentrée autour du centre, mais encore min et max sont possibles avec une très faible probabilité, huit est discret et n'a que deux valeurs à min et à max, etc. .

Puisqu'ils répondent tous à vos critères, vous pouvez utiliser n'importe lequel d'entre eux pour la simulation. Cependant, votre choix subjectif aurait un résultat très profond sur le résultat de la simulation. Ce que je veux dire, c'est que si min, max et mean sont vraiment la seule chose que vous savez sur la distribution, alors vous n'avez pas suffisamment d'informations pour effectuer la simulation si vous voulez vraiment imiter la distribution réelle (inconnue).

Vous devez donc vous demander ce que vous savez sur la distribution? Est-ce discret ou continu? Symétrique ou asymétrique? Unimodal ou bimodal? Il y a beaucoup de choses à considérer. Si elle est continue, non uniforme et unimodale, et que vous ne connaissez que le min, le max et la moyenne, alors un choix possible est la distribution triangulaire - il est très peu probable que quoi que ce soit dans la vie réelle ait une telle distribution, mais au moins vous utilisez quelque chose de simple et ne pas imposer trop d'hypothèses sur sa forme.

— Tim
source

Donc, si je supposais une distribution triangulaire, je pourrais également calculer le mode avec mes informations actuelles. Est-ce que cela aiderait?

— user132053

@ user132053 vous n'avez besoin que de min, max et moyenne. La formule pour la moyenne de la distribution triangulaire est (a + b + c) / 3 vous pouvez le résoudre pour le mode en utilisant une arithmétique simple.

— Tim

Une règle basée sur la plage pour calculer l'écart type est largement citée dans la littérature statistique (voici une référence ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Déviation.htm ). Fondamentalement, c'est (max-min) / 4. Il s'agit d'une estimation très approximative.

Étant donné que les informations et la volonté d' assumer des données normalement distribuées, des écarts normaux peuvent être générés à partir de deux nombres, la moyenne et l'écart std basé sur la plage. Cela dit, toute distribution à un ou deux paramètres peut être générée à partir de ces deux informations, à condition que cette distribution soit enracinée au premier ou au deuxième moment.

Un coefficient de variation approximatif pourrait également être produit en prenant le rapport SD / Mean. Cela fournirait une approximation de la variabilité sans unité dans les données.

L'erreur se réfère plus correctement à la distribution d'échantillonnage de la population et nécessite une déclaration de la taille de l'échantillon, n , pour l'estimation. Votre description ne fournit pas ce détail.

— Mike Hunter
source

Certaines choses méritent d'être notées: (1) La moyenne donne potentiellement plus d'informations qui devraient remplacer la règle (max-min) / 4. (2) Étant donné que trois informations sont fournies, l'utilisation d'une famille à deux paramètres seulement laisse une marge de flexibilité en général.

— whuber

@whuber Vous avez fait deux commentaires allusifs sur ce sujet. Ce qui serait formidable, c'est de les développer et de préciser une réponse.

— Mike Hunter