Puis-je obtenir les paramètres d'une distribution log-normale à partir de la moyenne et de la médiane de l'échantillon?

J'ai les valeurs moyennes et médianes d'un échantillon tiré d'une distribution log-normale. Notez que ce n'est pas la moyenne et la médiane des journaux de la variable, bien que je puisse bien sûr calculer les journaux de la moyenne et de la médiane. Existe-t-il une solution sous forme fermée pour μ et σ à partir de ces informations? S'il n'y a qu'une solution numérique, pourriez-vous me dire comment la trouver, idéalement avec R?

Je note qu'il a été répondu à cette question pour dériver μ et σ de la moyenne de l'échantillon et de la variance de l'échantillon, ici: Comment puis-je estimer les paramètres d'une distribution log-normale à partir de la moyenne de l'échantillon et de la variance de l'échantillon Cependant, je n'ai pas le variance de l'échantillon, uniquement la moyenne et la médiane.

S'il n'y a pas de solution numérique simple ou simple, j'aimerais savoir si l'utilisation des journaux de la moyenne et de la médiane de l'échantillon, ou d'une transformation de ceux-ci, fournira une réponse raisonnable pour un grand échantillon (dans les centaines de millions ).

— andrewH
source

Cela dépend plutôt de ce que vous entendez par «obtenir». En général, vous ne pouvez pas obtenir des quantités de population à partir d'échantillons. Cependant, vous pouvez souvent obtenir des estimations, mais dans ce cas, les estimations peuvent ne pas être très bonnes.

Si vous en avez, vous pouvez facilement calculer les paramètres à partir de la moyenne et de la médiane de la population ; si $\tilde{m}=\exp(\mu)$ est la médiane de la population et $m=\exp(\mu+\frac12\sigma^2)$ est la moyenne de la population alors $\mu=\log(\tilde{m})$ et $\sigma^2=2\log(\frac{m}{\tilde{m}})=2(\log(m)-\log(\tilde{m}))$ .

Vous pouvez également essayer d'utiliser la moyenne et la médiane de l'échantillon dans une sorte d'estimateur des quantités de population.

Si les seules choses que vous avez sont l'échantillon moyenne et la médiane d'un log - normale ( $\bar{x}$ et $\tilde{x}$ respectivement) alors vous pourriez au moins utiliser la stratégie évidente de remplacer les quantités de population par des échantillons *, combinant la méthode des moments et la méthode des quantiles ... $\hat{\mu}=\log(\tilde{x})$ et $\hat{\sigma}^2=2\log(\frac{\bar{x}}{\tilde{x}})=2(\log(\bar{x})-\log(\tilde{x}))$ .

Je pense que ces estimateurs seront cohérents. Cependant, dans de petits échantillons, ils sont certainement biaisés et peuvent ne pas être très efficaces, mais vous n'avez peut-être pas beaucoup de choix sans une analyse considérable.

Bien sûr, en réalité, vous ne savez pas vraiment que vos données sont tirées d'une distribution lognormale - c'est à peu près une supposition. Cependant, dans la pratique, cela pourrait être une hypothèse tout à fait utilisable.

Idéalement, on devrait déterminer la distribution conjointe de la moyenne et de la médiane de l'échantillon à partir d'une lognormale, puis essayer de maximiser la probabilité sur les paramètres de cette distribution bivariée; cela devrait faire aussi bien que possible, mais c'est plus un problème de recherche décent (vaut bien un article s'il n'a pas été fait auparavant) qu'une question de quelques paragraphes de réponse.

On pourrait effectuer des simulations sur les propriétés de la distribution conjointe de la moyenne et de la médiane de l'échantillon. Par exemple, considérez que la distribution du rapport de la moyenne à la médiane devrait être sans échelle - une fonction de $\sigma$ seulement. Même si nous ne pouvons pas le calculer algébriquement, nous pouvons voir comment le rapport (par exemple) se comporte comme $\sigma$ changements. On pourrait alors choisir le $\sigma$ qui maximise approximativement les chances d'obtenir le rapport que vous avez observé ( $\mu$ pourrait être estimée de diverses manières, mais la plus évidente - le logarithme de la médiane, comme mentionné précédemment - ne serait pas terrible).

* Attention: il est parfaitement possible que la médiane de l'échantillon dépasse la moyenne de l'échantillon. Dans ce cas, l'estimateur simple suggéré ci-dessus n'est d'aucune utilité, car il repose sur une moyenne supérieure à la médiane (il donnera une estimation négative pour un paramètre positif).

— Glen_b -Reinstate Monica
source