Quelle est la distance entre un mélange gaussien fini et un gaussien?

Supposons que j'ai un mélange de Gaussiens finis avec des poids, des moyens et des écarts-types connus. Les moyens ne sont pas égaux. La moyenne et l'écart type du mélange peuvent être calculés, bien sûr, car les moments sont des moyennes pondérées des moments des composants. Le mélange n'est pas une distribution normale, mais est-il loin d'être normal?

Mélange de gaussiens séparés par 2 écarts-types vs gaussiens avec la même moyenne et la même variance

L'image ci-dessus montre les densités de probabilité pour un mélange gaussien avec des moyennes de composants séparées par écarts-types (des composants) et un seul gaussien avec la même moyenne et la même variance. $2$

Mélange de Gaussiens séparés par 1 écart-type vs Gaussien avec la même moyenne et variance

Ici, les moyennes sont séparées par écart-type et il est plus difficile de séparer le mélange du gaussien à l'œil nu. $1$

Motivation: je ne suis pas d'accord avec certaines personnes paresseuses au sujet de certaines distributions réelles qu'elles n'ont pas mesurées et qui supposent qu'elles sont proches de la normale car ce serait bien. Je suis paresseux aussi. Je ne veux pas non plus mesurer les distributions. Je veux pouvoir dire que leurs hypothèses sont incohérentes, car ils disent qu'un mélange fini de gaussiens avec des moyens différents est un gaussien qui n'a pas raison. Je ne veux pas seulement dire que la forme asymptotique de la queue est fausse car ce ne sont que des approximations qui ne sont censées être raisonnablement précises que dans quelques écarts-types de la moyenne. J'aimerais pouvoir dire que si les composants sont bien approximés par des distributions normales, alors le mélange ne l'est pas, et j'aimerais pouvoir le quantifier.

Je ne connais pas la bonne distance par rapport à la normalité à utiliser: supremum des différences entre les CDF, distance distance du déménageur, divergence KL, etc. d'autres mesures. Je serais heureux de connaître la distance au gaussien avec la même moyenne et l'écart-type que le mélange, ou la distance minimale avec n'importe quel gaussien. Si cela peut aider, vous pouvez vous limiter au cas où le mélange est de gaussiennes de sorte que le plus petit poids soit supérieur à . $L^1$ $2$ $1/4$

normal-distribution mixture distance

— Douglas Zare
source

Si un mélange est très proche de nrmal, alors utiliser une approximation normale n'est pas de la paresse, c'est une simplification et pourrait être une bonne solution. Mais dans votre exemple, vous montrez un mélange plus plat qu'un nromal au centre, plus répandu au milieu et plus court dans la queue par rapport à la meilleure approximation normale. Je pense que vous voudriez regarder une sorte de différence intégrée entre les deux cdf. Pas la mesure KS parce que l'écart maximal peut ne pas être très important mais l'écart moyen sur une région peut être relativement important.

— Michael R. Chernick

Pouvons-nous supposer qu'il existe des preuves statistiquement significatives du mélange de gaussiens sur une approximation normale? Nous devons seulement nous demander si la différence a une signification pratique si la différence est connue pour être statistiquement significative. La suggestion de Michaels de quelque chose comme la statistique Anderson-Darling serait un point de départ raisonnable.

— Dikran Marsupial

@Dikran Marsupial: La population est divisée en sous-groupes qui sont connus pour avoir des moyens différents. Les moyens composants sont connus avec une grande précision. Le rapport entre les différences entre les moyennes des composants et les écarts-types des composants varie, mais peut être compris entre et dans certains cas d'intérêt, malheureusement pas suffisant pour que la distribution totale soit bimodale.

1 / 2

$1/2$

2

$2$

— Douglas Zare

Il semble que vous posiez vraiment une question de sélection de modèle: étant donné certaines données à modéliser, quand devrait-on préférer une distribution normale par rapport à un mélange (ou plus généralement, comment choisir le nombre de composants du mélange)? Recadrer la question comme celle-ci vous donnerait accès, oh, à quelques centaines de questions connexes sur ce site :-).

— whuber

@whuber: la distance à la normale pourrait alors être exprimée comme la puissance (moyenne) d'un test visant à séparer le mélange d'un seul gaussien.

— Xi'an

Réponses:

La divergence KL serait naturelle car vous avez une distribution de base naturelle, la seule gaussienne, à partir de laquelle votre mélange diverge. En revanche, la divergence KL (ou sa forme symétrique de «distance») entre deux mélanges gaussiens, dont votre problème est un cas particulier, semble être insoluble en général. Hershey et Olson (2007) ressemble à un résumé raisonnable des approximations disponibles, y compris des méthodes variationnelles qui peuvent éventuellement offrir des limites plus faciles.

Cependant, si vous voulez avoir un argument sur les effets néfastes de supposer que quelque chose est gaussien quand c'est vraiment un mélange, alors il est préférable d'avoir une bonne idée des conséquences qui vous intéressent réellement - quelque chose de plus spécifique que de simplement `` se tromper '' »(c'est le point de Michael-Chernick). Par exemple, les conséquences pour un test, ou un intervalle, ou quelque chose comme ça. Deux effets évidents du mélange sont la surdispersion, qui est à peu près garantie, et la multimodalité, qui confondra les maximiseurs.

— conjugateprior
source

Permettez-moi de poursuivre sur l'examen des conséquences d'une spécification de distribution incorrecte. Plutôt que d'utiliser une mesure générique de la distance, telle que KL Divergence, vous pouvez évaluer une mesure personnalisée de la «différence», liée aux conséquences à portée de main.

Par exemple, si la distribution va être utilisée pour le calcul du risque, par exemple pour déterminer que la probabilité de défaillance est suffisamment faible, alors les seules choses qui importent dans l'ajustement sont les calculs de probabilité dans la queue extrême. Cela peut être pertinent pour les décisions sur les programmes de plusieurs milliards de dollars et impliquer des questions de vie ou de mort.

Où l'hypothèse normale est-elle susceptible d'être la plus inexacte? Dans de nombreux cas, dans les queues extrêmes, le seul endroit qui compte pour ces calculs de risques cruciaux. Si, par exemple, votre vraie distribution est un mélange de normales ayant la même moyenne, mais des écarts-types différents, alors les queues de la distribution du mélange sont plus grosses que les queues de la distribution normale ayant la même moyenne et l'écart-type. Cela peut facilement entraîner des ordres de grandeur de différence (sous-estimation du risque) pour les probabilités dans la queue extrême.

Ainsi, par exemple, à un niveau crucial , la mesure de différence pertinente pourrait être . Dans ce cas, peu importe la qualité de l'accord dans le reste de la distribution. $U$ $P(X_{Mixture} > U) - P(X_{Normal} > U)$

— Mark L. Stone
source