Trouver le nombre de gaussiens dans un mélange fini avec le théorème de Wilks?

11

Supposons que j'ai un ensemble d'observations univariées indépendantes et distribuées de manière identique et deux hypothèses sur la façon dont été généré: $x$ $x$

$H_0$ : est tiré d'une distribution gaussienne unique avec une moyenne et une variance inconnues. $x$

$H_A$ : est tiré d'un mélange de deux Gaussiennes avec une moyenne, une variance et un coefficient de mélange inconnus. $x$

Si je comprends bien, ce sont des modèles imbriqués puisque le modèle que représente peut être décrit en termes de si vous contraignez les paramètres des deux Gaussiens à être identiques ou contraignez le coefficient de mélange à zéro pour l'un des deux Gaussiens. $H_0$ $H_A$

Par conséquent, il semble que vous devriez pouvoir utiliser l'algorithme EM pour estimer les paramètres de , puis utiliser le théorème de Wilks pour déterminer si la probabilité des données sous est significativement supérieure à celle sous . Il y a un petit acte de foi dans l'hypothèse que l'algorithme EM convergera vers la probabilité maximale ici, mais c'est celui que je suis prêt à faire. $H_A$ $H_A$ $H_0$

J'ai essayé cela dans une simulation de monte carlo, en supposant que a 3 degrés de liberté de plus que (la moyenne et la variance pour le deuxième gaussien et le paramètre de mélange). Lorsque j'ai simulé des données de , j'ai obtenu une distribution de valeurs P qui était sensiblement non uniforme et enrichie pour de petites valeurs P. (Si l'EM ne convergeait pas vers la vraie vraisemblance maximale, l'exact opposé serait attendu.) Qu'est-ce qui ne va pas avec mon application du théorème de Wilks qui crée ce biais? $H_A$ $H_0$ $H_0$

hypothesis-testing normal-distribution expectation-maximization

— dsimcha
source

8

En spécifiant soigneusement comment l'hypothèse nulle est contenue dans le modèle de mélange à deux composants, il est possible de voir quel pourrait être le problème. Si les cinq paramètres du modèle de mélange sont , alors car soit les deux composants normaux du mélange sont égaux, auquel cas la proportion de mélange n'est pas pertinente, soit la proportion de mélange est 0 ou 1, auquel cas l'un des composants du mélange n'est pas pertinent. La conclusion est que l'hypothèse nulle ne peut pas être spécifiée, pas même localement, comme une simple restriction de paramètre qui fait passer la dimension de l'espace des paramètres de 5 à 2. $\mu_1, \mu_2, \sigma_1, \sigma_2, \rho$

H_{0} : (μ_{1} = μ_{2} and σ_{1} = σ_{2}) or ρ \in {0, 1} .

$H_0: (\mu_1 = \mu_2 \text{ and } \sigma_1 = \sigma_2) \text{ or } \rho \in \{0, 1\}.$

ρ

$\rho$

ρ

$\rho$

L'hypothèse nulle est un sous-ensemble compliqué de l'espace complet des paramètres, et sous la valeur nulle, les paramètres ne sont même pas identifiables. Les hypothèses habituelles nécessaires pour obtenir le théorème de Wilk se décomposent, notamment il n'est pas possible de construire une expansion de Taylor appropriée de la log-vraisemblance.

Je n'ai aucune expérience personnelle avec ce problème particulier, mais je connais d'autres cas où les paramètres "disparaissent" sous le zéro, ce qui semble être le cas ici également, et dans ces cas, les conclusions du théorème de Wilk se décomposent également. . Une recherche rapide a donné, entre autres, cet article qui semble pertinent, et où vous pourriez être en mesure de trouver d'autres références sur l'utilisation du test du rapport de vraisemblance par rapport aux modèles de mélange.

— NRH
source

Merci. Je pensais que quelque chose comme ça pourrait être le problème, mais je n'en étais pas sûr. J'étais un peu confus quant aux points les plus fins de ce qui constitue un modèle imbriqué aux fins du théorème de Wilks. Bon point sur l'identifiabilité sous le nul.

— dsimcha

4

L'inférence sur le nombre de composants de mélange ne satisfait pas aux conditions de régularité nécessaires pour le théorème de Wilks puisque (a) le paramètre $\rho$ se trouve à la limite de l'espace des paramètres et (b) le paramétrage n'est pas identifiable sous la valeur nulle. Cela ne veut pas dire que la distribution du rapport de vraisemblance généralisée est inconnue! Si tous les 5 paramètres de votre configuration sont inconnus et, surtout, sans limites, la distribution de la statistique LR ne converge pas. Si tous les paramètres non identifiables sont bornés, alors la statistique LR est monotone dans le supremum d'un processus gaussien tronqué. Dont la covariance n'est pas facile à calculer dans le cas général (5 paramètres), et même lorsque vous l'avez - la distribution du supremum d'un tel processus n'est pas facilement approximative. Pour quelques résultats pratiques concernant le mélange à deux composants, voir ici. Fait intéressant, le document montre que dans des configurations plutôt simples, la statistique LR est en fait moins puissante que certaines statistiques plus simples. Pour l'article fondamental sur la dérivation de la distribution asymptotique dans de tels problèmes, voir ici . À toutes fins pratiques, vous pouvez ajuster le mélange à l'aide d'un EM, puis Bootstrap la distribution de la statistique LR. Cela peut prendre un certain temps car l'EM est connu pour être lent et vous avez besoin de nombreuses réplications pour capturer l'effet de la taille de l'échantillon. Voir ici pour plus de détails.

— JohnRos
source