Puis-je utiliser le test de Kolmogorov-Smirnov et estimer les paramètres de distribution?


14

J'ai lu que le test de Kolmogorov-Smirnov ne devrait pas être utilisé pour tester la qualité de l'ajustement d'une distribution dont les paramètres ont été estimés à partir de l'échantillon.

Est-il judicieux de diviser mon échantillon en deux et d'utiliser la première moitié pour l'estimation des paramètres et la seconde pour le test KS?

Merci d'avance


1
Quelle distribution voulez-vous tester et pourquoi?
gung - Rétablir Monica

Je soupçonne que les données suivent une distribution exponentielle.
sortega

Réponses:


13

La meilleure approche consiste à calculer votre valeur critique de la valeur p par simulation. Le problème est que lorsque vous estimez les paramètres à partir des données plutôt que d'utiliser des valeurs hypothétiques, la distribution de la statistique KS ne suit pas la distribution nulle.

Au lieu de cela, vous pouvez ignorer les valeurs p du test KS et simuler un ensemble d'ensembles de données de la distribution candidate (avec un ensemble significatif de paramètres) de la même taille que vos données réelles. Ensuite, pour chaque ensemble, estimez les paramètres et effectuez le test KS en utilisant les paramètres estimés. Votre p-value sera la proportion des statistiques de test des ensembles simulés qui sont plus extrêmes que pour vos données d'origine.


2
Je trouve la solution un peu déroutante (du moins pour moi); qu'entendez-vous par "un ensemble significatif de paramètres" pour la distribution candidate? Au départ, vous ne connaissez pas les paramètres de la distribution candidate, comment sauriez-vous ce qu'est un «ensemble significatif de paramètres»?
Néstor

Vous pouvez essayer différents ensembles de paramètres pour voir si cela fait une différence ou non (pour la normale, ce n'est pas le cas, mais certaines distributions peuvent le faire). Réfléchissez ensuite à la science derrière vos données, ou parlez à un expert dans le domaine, vous devriez être en mesure de vous faire une idée générale par où commencer, par exemple, j'ai une idée de la taille moyenne des hommes adultes au Nigeria, mais je suis assez certain qu'il est positif et inférieur à 3 mètres.
Greg Snow

@GregSnow Je suis tombé sur ce message car il est pertinent pour mon travail actuel. Je me demandais s'il y avait une justification théorique à la méthode que vous proposez? Autrement dit, comment savons-nous que la "valeur de p" proposée est en effet uniformément répartie de 0 à 1? La valeur de p proposée ne semble pas être la valeur de p conventionnelle parce que l'hypothèse Null est maintenant un ensemble de distributions
renrenthehamster

@renrenthehamster, vous avez un bon point, c'est pourquoi j'ai suggéré de simuler sous différentes conditions. Pour certaines distributions (je m'attendrais à la normale), cela n'aura pas beaucoup d'importance, mais d'autres peuvent nécessiter des seuils différents pour différentes valeurs de paramètres réels. Si tel est le cas, l'utilisateur (vous) doit trouver un null significatif à tester, qui comprend à la fois la forme de la distribution et un ensemble ou une plage de paramètres avec lesquels vous êtes à l'aise.
Greg Snow

1
@LilyLong, les simulations étaient beaucoup plus difficiles et consommaient beaucoup de temps, donc les tests ont été développés pour être plus rapides / plus faciles que la simulation, certains des premiers tableaux ont été créés par simulation. De nombreux tests peuvent désormais facilement être remplacés par la simulation, mais seront probablement avec nous encore un peu en raison de la tradition et de la simplicité.
Greg Snow

7

Le fractionnement des échantillons peut peut-être réduire le problème de distribution de la statistique, mais il ne le supprime pas.

Votre idée évite que les estimations soient «trop proches» par rapport aux valeurs de la population car elles sont basées sur le même échantillon.

Vous n'évitez pas le problème qu'ils sont toujours des estimations. La distribution de la statistique de test n'est pas celle tabulée.

Dans ce cas, il augmente le taux de rejet sous le zéro, au lieu de le réduire considérablement.

Un meilleur choix consiste à utiliser un test dont les paramètres ne sont pas supposés connus, comme un Shapiro Wilk.

Si vous êtes marié à un test de type Kolmogorov-Smirnov, vous pouvez adopter l'approche du test de Lilliefors.

Autrement dit, pour utiliser la statistique KS, mais pour que la distribution de la statistique de test reflète l'effet de l'estimation des paramètres - simuler la distribution de la statistique de test sous l'estimation des paramètres. (Ce n'est plus sans distribution, vous avez donc besoin de nouvelles tables pour chaque distribution.)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors a utilisé la simulation pour le cas normal et exponentiel, mais vous pouvez facilement le faire pour n'importe quelle distribution spécifique; dans quelque chose comme R, il suffit de quelques instants pour simuler 10 000 ou 100 000 échantillons et obtenir une distribution de la statistique de test sous la valeur nulle.

[Une alternative pourrait être de considérer l'Anderson-Darling, qui a le même problème, mais qui - à en juger par le livre de D'Agostino et Stephens ( Goodness-of-fit-techniques ) semble y être moins sensible. Vous pourriez adapter l'idée de Lilliefors, mais ils suggèrent un ajustement relativement simple qui semble fonctionner assez bien.]

Mais il existe encore d'autres approches; il existe des familles de tests de qualité de l'ajustement, par exemple (voir par exemple le livre de Rayner et Best) qui, dans un certain nombre de cas spécifiques, peuvent traiter l'estimation des paramètres.

* l'effet peut toujours être assez important - peut-être plus grand que ce qui serait normalement considéré comme acceptable; Momo a raison d'en exprimer sa préoccupation. Si un taux d'erreur de type I plus élevé (et une courbe de puissance plus plate) est un problème, ce n'est peut-être pas une amélioration!


1
pourriez-vous expliquer comment «le fractionnement de l'échantillon résoudrait le problème de la distribution de la statistique»? À mon avis, les paramètres seraient estimés à partir d'un sous-échantillon, puis branchés pour le test KS du deuxième sous-échantillon, mais les paramètres seraient toujours associés à une erreur d'échantillonnage qui n'est pas prise en compte dans la distribution nulle. Cela me semble comme si l'on pouvait, avec une idée similaire, séparer un échantillon d'une distribution normale, estimer les écarts-types dans un sous-échantillon et effectuer une comparaison moyenne avec la normale standard plutôt qu'avec le t-dist dans le deuxième sous-échantillon.
Momo

1
@Momo 'résoudre' est trop fort; «réduire», c'est mieux. Si les paramètres sont estimés à partir des mêmes observations que vous testez, alors - à moins que vous ne teniez compte de cet effet - les écarts de l'échantillon par rapport à la distribution seront `` trop faibles '' - le taux de rejet diminue considérablement. L'utilisation d'un autre échantillon supprime cet effet. Les valeurs des paramètres résultant de l'estimation à partir d'un deuxième échantillon souffrent encore d'une erreur d'échantillonnage. Cela aura un certain impact sur le test (augmente le taux d'erreur de type I), mais n'aura pas l'effet de biais dramatique que l'utilisation des mêmes données pour les deux.
Glen_b -Reinstate Monica

@Momo J'ai modifié mon commentaire pour supprimer «résoudre» et le remplacer par une explication
Glen_b -Reinstate Monica

5

Je crains que cela ne résoudrait pas le problème. Je pense que le problème n'est pas que les paramètres sont estimés à partir du même échantillon mais à partir de n'importe quel échantillon. La dérivation de la distribution nulle habituelle du test KS ne tient pas compte d'une erreur d'estimation dans les paramètres de la distribution de référence, mais les considère plutôt comme donnés. Voir aussi Durbin 1973 qui discute longuement de ces problèmes et propose des solutions.


1
Ce sont en fait deux problèmes distincts. Si vous utilisez les mêmes données pour estimer les paramètres et effectuer le test KS, vous verrez généralement des valeurs de p gonflées , car vous adaptez essentiellement la distribution aux données avant de les tester. Cependant, si vous utilisez deux ensembles d'échantillons indépendants, ce n'est pas le cas. Cependant, des estimations de paramètres imprécises peuvent diminuer les valeurs de p que vous obtenez dans ce cas, car vous testez maintenant essentiellement contre une distribution (légèrement) erronée .
fgp
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.