Comment ajuster un PDF approximatif (ie: estimation de densité) en utilisant les k premiers moments (empiriques)?

J'ai une situation où je peux estimer (les premiers) moments d'un ensemble de données, et je voudrais l'utiliser pour produire une estimation de la fonction de densité. $k$

J'ai déjà rencontré la distribution Pearson , mais j'ai réalisé qu'elle ne dépend que des 4 premiers moments (avec quelques restrictions sur les combinaisons possibles de moments).

Je comprends également que tout ensemble fini de moments ne suffit pas à "cerner" une distribution spécifique, lorsqu'il n'utilise pas plus d'hypothèses. Cependant, je souhaiterais toujours une classe de distributions plus générale (autre que la famille de distributions Pearson). En regardant d'autres questions, je n'ai pas pu trouver une telle distribution (voir: ici , ici , ici , ici , ici et ici ).

Existe-t-il une famille de distribution généralisée ("simple") qui peut être définie pour n'importe quel ensemble de moments? (peut-être un ensemble de transformations qui peut prendre une distribution normale standard et la transforme jusqu'à ce qu'elle confirme avec tout l'ensemble de moments) $k$ $k$

(Peu m'importe si nous supposons que les autres moments sont 0 ou non) $k+1\ldots\infty$

Merci.

ps: je serais heureux pour un exemple étendu. De préférence avec un exemple de code R.

pdf kernel-smoothing moments

— Tal Galili
source

Les

premiers moments définissent les

premières dérivées de la fonction caractéristique à zéro:

. Vous connaissez donc les

premiers termes de l'expansion de Taylor de la fonction caractéristique autour de zéro. Vous pourrez alors utiliser les théorèmes d'inversion pour dériver la densité.

k

$k$

k

$k$

E [X^{k}] = (- i)^{k} ϕ_{X}^{(k)} (0)

$E[X^k] = (-i)^k\phi_X^{(k)}(0)$

k

$k$

— Stephan Kolassa

Merci @StephanKolassa - une chance pour une réponse étendue / un exemple de code R?

— Tal Galili

en.wikipedia.org/wiki/Maximum_entropy_probability_distribution suggère une méthode générale.

— whuber

Cher @whuber, pourriez-vous s'il vous plaît suggérer un exemple de code R? (aussi, cela va-t-il avec la réponse des loups?)

— Tal Galili

Il s'agit d'une approche complètement différente de cette réponse.

— whuber

Méthode 1: systèmes Pearson d'ordre supérieur

$p(x)$

\frac{ré p (X)}{ré X} = - \frac{(une + X)}{c_{0} + c_{1} X + c_{2} X^{2}} p (X)

$\frac{d p (x)}{dx} \; = \; -\frac{(a+x) }{c_0 + c_1 x + c_2 x^2} \; p(x)$

$(a, c_0, c_1, c_2)$

$c_0 + c_1 x + c_2 x^2$ $p(x)$

\frac{ré p (X)}{ré X} = - \frac{(une + X)}{c_{0} + c_{1} X + c_{2} X^{2} + c_{3} X^{3}} p (X)

$\frac{d p(x)}{dx} \; = \; -\frac{(a+x) }{c_0 + c_1 x + c_2 x^2 + c_3 x^3} \; p (x)$

ce qui donne la solution:

J'ai résolu cela pour le plaisir il y a quelque temps (en ayant le même train de pensée que l'OP): la dérivation et la solution sont données dans le chapitre 5 de notre livre; si vous êtes intéressé, un téléchargement gratuit est disponible ici:

http://www.mathstatica.com/book/bookcontents.html

Notez que tandis que la famille Pearson de second ordre (quadratique) peut être exprimée en termes des 4 premiers moments, la famille de style Pearson de troisième ordre (cubique) nécessite les 6 premiers moments.

Méthode 2: extensions Gram-Charlier

$k^{th}$

Moments de population ou moments d'échantillonnage ??

Pour le système de type Pearson: si les moments de la population sont connus, l'utilisation de moments plus élevés devrait sans aucun doute donner un meilleur ajustement. Si, cependant, les données observées sont un échantillon aléatoire tiré de la population, il y a un compromis: un polynôme d'ordre supérieur implique que des moments d'ordre supérieur sont nécessaires, et les estimations de ce dernier peuvent être peu fiables (ont une variance élevée), sauf si la taille de l'échantillon est «grande». En d'autres termes, compte tenu des données d'échantillonnage, l'ajustement à l'aide de moments plus élevés peut devenir «instable» et produire des résultats inférieurs. Il en va de même pour les extensions Gram-Charlier: l'ajout d'un terme supplémentaire peut en fait donner un ajustement plus mauvais, donc un peu de soin est nécessaire.

— Wolfies
source

Chers @wolfies - merci pour votre réponse! Si je vous comprends bien, les extensions Gram-Charlier correspondent davantage à ce que je recherche (bien que la distribution Pearson plus généralisée soit intéressante à connaître). J'ai regardé votre livre (chapitre 5, à partir de la page 175), et vous voyez en effet y donner une description détaillée (avec également des mentions sur la façon de gérer les moments estimés, ce qui est mon cas). La seule chose est que je ne peux pas utiliser votre code (car je suis un utilisateur R). Merci pour votre réponse (et aussi pour votre livre qui semble impressionnant et intéressant en général)

— Tal Galili

Je viens de trouver un package R pour gérer les différentes méthodes: cran.us.r-project.org/web/packages/PDQutils/vignettes/…

— Tal Galili