Quand préférer la fonction de génération de moment à la fonction caractéristique?


9

Soit un espace de probabilité, et soit un vecteur aléatoire. Soit la distribution de , une mesure de Borel sur .(Ω,F,P)X:ΩRnPX=XPXRn

  • La fonction caractéristique de est la fonction définie pour (la variable aléatoire est donc bornée dans pour tout ). Il s'agit de la transformée de Fourier de .X
    φX(t)=E[eitX]=ΩeitXdP,
    tRneitXL1(P)tPX
  • La fonction de génération de moment ( mgf ) de est la fonction définie pour tout pour lequel l'intégrale ci-dessus existe . Il s'agit de la transformée de Laplace de .X
    MX(t)=E[etX]=ΩetXdP,
    tRn PX

Déjà, nous pouvons voir que la fonction caractéristique est définie partout sur , mais le mgf a un domaine qui dépend de , et ce domaine peut être juste (cela se produit, par exemple, pour une variable aléatoire distribuée par Cauchy).RnX{0}

Malgré cela, les fonctions caractéristiques et les mgf partagent de nombreuses propriétés, par exemple:

  1. Si sont indépendants, alors pour tout , et pour tous les pour lesquels les mgf existent .X1,,Xn
    φX1++Xn(t)=φX1(t)φXn(t)
    t
    MX1++Xn(t)=MX1(t)MXn(t)
    t
  2. Deux vecteurs aléatoires et ont la même distribution si et seulement si pour tout . L'analogue mgf de ce résultat est que si pour tout dans un voisinage de , alors et ont la même distribution.XYφX(t)=φY(t)tMX(t)=MY(t)t 0XY
  3. Les fonctions caractéristiques et les mgf de distributions communes ont souvent des formes similaires. Par exemple, si ( normale à dimensions avec moyenne et matrice de covariance ), alors et XNn(μ,Σ)nμΣ
    φX(t)=exp(iμt12t(Σt))
    MX(t)=exp(μt12t(Σt)).
  4. Lorsque certaines hypothèses douces sont valables, la fonction caractéristique et le mgf peuvent être différenciés pour calculer les moments.
  5. Le théorème de continuité de Lévy fournit un critère pour déterminer quand une séquence de variables aléatoires converge en distribution vers une autre variable aléatoire en utilisant la convergence des fonctions caractéristiques correspondantes. Il existe un théorème correspondant pour les mgf ( Curtiss 1942, Théorème 3 ).

Étant donné que les fonctions caractéristiques et les mgf sont souvent utilisés dans le même but et le fait qu'une fonction caractéristique existe toujours alors qu'un mgf n'existe pas toujours, il me semble que l'on devrait souvent préférer travailler avec des fonctions caractéristiques plutôt que les mgf.

Des questions.

  1. Quels sont les exemples où les mgf sont plus utiles que les fonctions caractéristiques?
  2. Que peut-on faire avec un mgf que l'on ne peut pas faire avec une fonction caractéristique?

1
La clé de cette question n'est-elle pas le mot «introduction» à la toute fin? Cela aurait-il un sens pédagogique d'introduire quelque chose impliquant l'analyse de nombres complexes dans un cours qui ne suppose qu'une exposition minimale (et pas à l'aise avec) le calcul élémentaire et souvent même pas?
whuber

1
@whuber C'est une chose à laquelle j'ai également pensé, mais je ne veux pas que ma question porte sur la pédagogie, alors je devrais peut-être supprimer le dernier paragraphe
Artem Mavrin

Réponses:


3

C'est une bonne question, mais large, je ne peux donc pas promettre de dire tout ce qui devrait être dit à ce sujet. La réponse courte est que les techniques rivales diffèrent non pas par ce qu'elles peuvent faire, mais par la façon dont elles peuvent le faire.

Les fonctions caractéristiques nécessitent une prudence supplémentaire en raison du rôle des nombres complexes. Ce n'est même pas que l'étudiant a besoin de connaître les nombres complexes; c'est que le calcul impliqué comporte de pièges subtils. Par exemple, je peux obtenir le MGF d'une distribution normale simplement en complétant le carré dans une substitution à décalage variable, mais beaucoup de sources prétendent négligemment que l'approche utilisant des fonctions caractéristiques est tout aussi facile. Ce n'est pas le cas, car la fameuse normalisation de l'intégrale gaussienne ne dit rien sur l'intégration suric+R avec cR{0}. Oh, nous pouvons toujours évaluer l'intégrale si nous faisons attention aux contours, et en fait il y a une approche encore plus facile, dans laquelle nous montrons en intégrant par parties qu'unN(0,1) fonction caractéristique de la distribution ϕ(t) satisfait ϕ˙=tϕ. Mais l'approche MGF est encore plus simple, et la plupart des distributions dont les élèves ont besoin tôt ont un MGF convergent sur un segment de ligne (par exemple Laplace) ou une demi-ligne (par exemple Gamma, géométrique, binôme négatif), ou l'ensemble deR(par exemple Bêta, binôme, Poisson, Normal). Quoi qu'il en soit, cela suffit pour étudier des moments.

Je ne pense pas qu'il y ait quelque chose que vous puissiez faire uniquement avec le MGF, mais vous utilisez ce qui est le plus simple pour la tâche à accomplir. En voici une pour vous: quelle est la façon la plus simple de calculer les moments d'une distribution de Poisson? Je dirais que c'est à nouveau d'utiliser une technique différente, la fonction génératrice de probabilitéG(t)=EtX=expλ(t1). Puis le symbole de Pochhammer qui tombe(X)k donne E(X)k=G(k)(1)=λk. En général, il vaut généralement la peine d'utiliser le PGF pour les distributions discrètes, le MGF pour les distributions continues qui sont délimitées ou qui ont une décroissance surexponentielle dans les queues du PDF, et la fonction caractéristique lorsque vous en avez vraiment besoin.

Et selon la question que vous posez, vous pouvez plutôt trouver prudent d'utiliser la fonction de génération de cumul, qu'elle soit définie comme le logarithme du MGF ou du CF. Par exemple, je vais laisser comme exercice que la définition log-MGF des cumulants pour le maximum den Exp(1) iids donne κm=(m1)!k=1nkm, qui permet un calcul beaucoup plus facile de la moyenne et de la variance (respectivement κ1 et κ2) que si vous les aviez écrits en termes de moments.


2
Je ne comprends pas votre remarque sur "l'intégration sur ic+R,"parce que afaik le cf est défini comme une intégrale d'une fonction à valeur complexe sur R. Il ne doit pas être considéré comme une intégrale de contour. Pour ceux qui ne sont pas à l'aise avec les nombres complexes, il peut de toute façon être considéré comme une paire d'intégrales réelles. On ne sait pas comment le mgf est "plus simple" à tous égards. En effet, le cf est plus simple dans le sens où l'on n'a pas à se soucier de la convergence.
whuber

1
@whuber Ce que je veux dire c'est R12πexp(x22+itx)dx=it+R12πexp(y22t22)dt.
JG

Je m'en doutais. Mais n'est-ce pas simplement un artefact de la façon dont on pourrait choisir d'évaluer l'intégrale, plutôt que d'être une caractéristique inhérente au cf lui-même?
whuber

@whuber Le problème est que de nombreuses sources prétendent que la substitution fonctionne aussi simplement que dans le cas MGF, ce qui n'est pas le cas.
JG

1
Pourriez-vous expliquer un peu pourquoi ce n'est pas le cas? Je ne vois rien de problématique dans ce cas particulier; et en général, parce que l'intégrale d'origine surRest convergent, on ne s'attendrait à aucun problème avec des substitutions de ce type.
whuber

3

Si votre variable aléatoire a tous ses moments, alors le MGF existe et est généralement au moins aussi utile que la fonction caractéristique pour les preuves.

Pour répondre à votre question, lorsque le MGF existe, il fournit la base de nombreux calculs de valeurs extrêmes X. Le plus simple est (pourt0),

P(X>r)=P(etX>etr)MX(t)/etr.

Ici, le rhs peut maintenant être minimisé sur t. Étrangement, cette limite est l'un des rares moyens simples que nous connaissons pour obtenir des estimations sur des événements rares. Le domaine général de ceci est la théorie des grands écarts , où l'on doit faire une tonne de travail pour obtenir de meilleures limites (plus serrées). Un exemple courant de cela est de regarderSn=X1++Xn, de sorte que lorsque le MGF de X1 existe, alors on peut montrer P(|SnE[X]|>nr) décroît de façon exponentielle dans n. Ceci est plus généralement connu comme le théorème de Cramer .

Voici quelques notes compactes à ce sujet.


1
Tout dans votre premier paragraphe est déjà mentionné dans la question, sauf la dernière phrase, qui je pense est fausse. Par exemple, tous les moments de la distribution log-normale existent, mais son mgf n'est pas défini pour tout nombre réel positif. La deuxième partie de votre réponse est très utile car elle met en évidence une application de mgf qui n'a apparemment pas d'analogue de fonction caractéristique
Artem Mavrin
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.