Trois moments ne déterminent pas une forme de distribution; si vous choisissez une distribution-famille avec trois paramètres qui se rapportent aux trois premiers moments de la population, vous pouvez faire l'appariement des moments ("méthode des moments") pour estimer les trois paramètres, puis générer des valeurs à partir d'une telle distribution. Il existe de nombreuses distributions de ce type.
Parfois, même avoir tous les moments n'est pas suffisant pour déterminer une distribution. Si la fonction de génération de moment existe (dans un voisinage de 0), alors elle identifie de manière unique une distribution (vous pouvez en principe faire une transformation de Laplace inverse pour l'obtenir).
[Si certains moments ne sont pas finis, cela signifierait que le mgf n'existe pas, mais il y a aussi des cas où tous les moments sont finis mais le mgf n'existe toujours pas dans un voisinage de 0.]
Étant donné qu'il existe un choix de distributions, on pourrait être tenté d'envisager une solution d'entropie maximale avec la contrainte sur les trois premiers moments, mais il n'y a pas de distribution sur la ligne réelle qui l'atteint (car le cube résultant dans l'exposant sera illimité).
Comment le processus fonctionnerait pour un choix de distribution spécifique
On peut simplifier le processus d'obtention d' un appariement de distribution trois moments en ignorant la moyenne et la variance et de travailler avec un troisième moment mis à l' échelle - le moment-dissymétrie ( γ1=μ3/μ3/22 ).
Nous pouvons le faire car après avoir sélectionné une distribution avec l'asymétrie pertinente, nous pouvons ensuite reculer la moyenne et la variance souhaitées par mise à l'échelle et décalage.
Prenons un exemple. Hier, j'ai créé un grand ensemble de données (qui se trouve toujours être dans ma session R) dont je n'ai pas essayé de calculer la forme fonctionnelle (c'est un grand ensemble de valeurs du journal de la variance d'échantillon d'un Cauchy à n = 10). Nous avons les trois premiers moments bruts respectivement à 1,519, 3,597 et 11,479, ou en conséquence une moyenne de 1,518, un écart-type * de 1,136 et une asymétrie de 1,429 (ce sont donc des valeurs d'échantillon d'un grand échantillon).
Formellement, la méthode des moments tenterait de faire correspondre les moments bruts, mais le calcul est plus simple si nous commençons par l'asymétrie (transformer la résolution de trois équations en trois inconnues en résolution d'un paramètre à la fois, une tâche beaucoup plus simple).
* Je vais effacer la distinction entre l'utilisation d'un n-dénominateur sur la variance - comme cela correspondrait à la méthode formelle des moments - et un n-1 dénominateur et utiliser simplement des exemples de calculs.
σμγ
γ1=(eσ2+2)eσ2−1−−−−−√
σ2σ~2
γ21(τ+2)2(τ−1)τ=eσ2τ3+3τ2−4=γ21τ~≈1.1995σ~2≈0.1819γ1
μ
Mais nous aurions pu aussi facilement choisir une distribution gamma décalée ou une distribution Weibull décalée (ou un F décalé ou un certain nombre d'autres choix) et suivre essentiellement le même processus. Chacun d'eux serait différent.
[Pour l'échantillon dont je parlais, un gamma décalé aurait probablement été un bien meilleur choix qu'un lognormal décalé, car la distribution des journaux des valeurs était laissée de travers et la distribution de leur racine cubique était très proche de symétrique; ceux-ci sont cohérents avec ce que vous verrez avec des densités gamma (non décalées), mais une densité asymétrique à gauche des bûches ne peut pas être obtenue avec une log-normale décalée.]
On pourrait même prendre le diagramme d'asymétrie-kurtosis dans un tracé de Pearson et tracer une ligne à l'asymétrie souhaitée et ainsi obtenir une distribution en deux points, une séquence de distributions bêta, une distribution gamma, une séquence de distributions bêta-prime, un inverse- la distribution gamma et une séquence de distributions de Pearson de type IV, toutes avec la même asymétrie.
β1=γ21β2
γ21=2.042σ
Plus de moments
Les moments n'épinglent pas très bien les distributions, donc même si vous spécifiez de nombreux moments, il y aura toujours beaucoup de distributions différentes (en particulier par rapport à leur comportement extrême) qui leur correspondront.
Vous pouvez bien sûr choisir une famille de distribution avec au moins quatre paramètres et tenter de faire correspondre plus de trois moments; par exemple, les distributions de Pearson ci-dessus nous permettent de faire correspondre les quatre premiers moments, et il existe d'autres choix de distributions qui permettraient un degré de flexibilité similaire.
On peut adopter d'autres stratégies pour choisir des distributions qui peuvent correspondre aux caractéristiques distributionnelles - distributions de mélange, modélisation de la densité logarithmique à l'aide de splines, etc.
Souvent, cependant, si l'on revient à l'objectif initial pour lequel on essayait de trouver une distribution, il s'avère souvent qu'il y a quelque chose de mieux qui peut être fait que le type de stratégie décrit ici.