Test d'adéquation: question sur le test d'Anderson – Darling et le critère de Cramér – von Mises


10

Je lis des pages Web pour des tests d'adéquation, quand je suis arrivé au test d'Anderson – Darling et au critère de Cramér – von Mises .

Jusqu'à présent, j'ai compris; il semble que le test d'Anderson – Darling et le critère de Cramér – von Mises soient similaires, simplement basés sur une fonction de pondération différente . Il existe également une variante du critère de Cramér-von Mises appelée test de Watson .w

Fondamentalement, j'ai deux questions ici

  1. Il n'y a pas beaucoup de résultats Google sur ces deux méthodes; sont-ils toujours à la pointe de la technologie? ou remplacé par de meilleures approches déjà?

    C'est un peu une surprise, car selon cet article sur les comparaisons de puissance des tests de Shapiro – Wilk, Kolmogorov – Smirnov, Lilliefors et Anderson-Darling , AD se comporte assez bien; toujours mieux que Lilliefors et KS, et très proche du test SW, qui est spécialement conçu pour la distribution normale.

  2. Quel est l'intervalle de confiance pour de tels tests?

    Pour les tests AD, CM et Watson, j'ai vu la variable de statistiques de test définie sur les pages wiki, mais je n'ai pas trouvé l'intervalle de confiance.

    Les choses sont un peu plus simple pour le test KS: sur la page wiki , l'intervalle de confiance est définie par , qui est définie à partir de la fonction de distribution cumulative de . KKαK

Réponses:


4

Il ne peut y avoir aucun état de l'art unique pour la qualité de l'ajustement (par exemple, aucun test UMP à travers des alternatives générales n'existera, et vraiment rien ne s'en rapproche - même les tests omnibus très réputés ont un pouvoir terrible dans certaines situations).

En général, lorsque vous sélectionnez une statistique de test, vous choisissez les types d'écarts qu'il est le plus important de détecter et d'utiliser une statistique de test qui convient à ce travail. Certains tests fonctionnent très bien avec une grande variété d'alternatives intéressantes, ce qui en fait des choix par défaut décents, mais cela ne les rend pas "à la pointe".

L'Anderson Darling est toujours très populaire, et pour cause. Le test de Cramer-von Mises est beaucoup moins utilisé de nos jours (à ma grande surprise car il est généralement meilleur que le Kolmogorov-Smirnov, mais plus simple que l'Anderson-Darling - et a souvent un meilleur pouvoir que sur les différences "au milieu" de la distribution)

Tous ces tests souffrent de biais par rapport à certains types d'alternatives, et il est facile de trouver des cas où l'Anderson-Darling fait bien pire (terriblement, vraiment) que les autres tests. (Comme je le suggère, il s'agit plus de «chevaux pour les cours» que d'un test pour les gouverner tous). Cette question est souvent peu prise en compte (quel est le meilleur moyen de détecter les écarts qui comptent le plus pour moi?), Malheureusement.

Vous pouvez trouver de la valeur dans certains de ces messages:

Shapiro – Wilk est-il le meilleur test de normalité? Pourquoi pourrait-il être meilleur que d'autres tests comme Anderson-Darling?

2 Échantillon Kolmogorov-Smirnov vs Anderson-Darling vs Cramer-von-Mises (environ deux tests mais de nombreuses déclarations sont reportées

Motivation pour la distance de Kolmogorov entre les distributions (discussion plus théorique mais il y a plusieurs points importants sur les implications pratiques)


Je ne pense pas que vous serez en mesure de former un intervalle de confiance pour le cdf dans les statistiques de Cramer-von Mises et Anderson Darline, car les critères sont basés sur tous les écarts plutôt que sur le plus grand.


J'ai pris «état de l'art» pour signifier quelque chose qui trouve une utilisation qui n'est pas obsolète. L'existence de multiples définitions de la qualité de l'ajustement devrait nous signaler que la qualité de l'ajustement n'est pas un concept unique. Considérez que «bon» dépend du «pourquoi» nous effectuons une régression. Supposons que nous adaptons le modèle A aux données B pour obtenir un meilleur prédicteur de l'effet C. Alors «bon» est le meilleur prédicteur de C et non de B. Cependant, le plus souvent, la question de la différence entre B et C est ignorée.
Carl

1
@Carl, vous voudrez peut-être consulter un dictionnaire (ou wikipedia) sur ce que l' état de l'art signifie généralement - votre interprétation de la phrase n'est pas la façon dont la plupart des gens la lisent. Les dictionnaires disent des choses comme ceci: " le stade de développement le plus récent, incorporant les idées les plus récentes " et " le plus haut niveau de développement à un moment donné " et "de pointe, utilisant les dernières technologies ". Dans ce contexte - tester la qualité de l'ajustement - la phrase implique "le mieux que nous puissions faire en ce moment". J'insiste sur le fait que ce n'est pas quelque chose que vous pouvez vraiment dire à propos d'un seul test. ... ctd
Glen_b -Reinstate Monica

2
... par exemple, nous pouvons dire que les tests populaires comme le Shapiro-Wilk (bien que très populaires dans les tests de normalité) ont des concurrents avec une puissance largement meilleure (par exemple, voir Shapiro et Chen 1995) - mais pas dans toutes les situations. Il n'y a pas de meilleur choix de test (et donc pas de véritable «état de l'art»). Certes, je suis d'accord que ce qui est le mieux (état de l'art) dépend des circonstances --- c'est le point de ma réponse; les réponses possibles sont innombrables - quelque chose de bien dans une situation peut être très pauvre dans une autre. Il vaut la peine de savoir quand les tests fonctionnent bien plutôt que de demander «ce qui est le mieux» comme s'il s'agissait d'une seule chose.
Glen_b -Reinstate Monica

Certes, votre définition est plus correcte. Cependant, il y a beaucoup plus de méthodes que de tests de méthodes, et "l'état de l'art" est en grande partie de la fiction, c'est-à-dire que "l'art" n'a pas "d'état" tout ce qu'il a sont des protagonistes. Toute réponse à une telle position nébuleuse est équivoque. J'ai dit «oui» et vous avez dit «non» et nous avons tous les deux dit la même chose.
Carl

BTW, la question était "état de l'art" ou "remplacé" que j'ai pris pour signifier "obsolète ou pas obsolète". Il y avait donc un contexte pour ma réponse qui était "Veuillez supposer que" état de l'art "et" remplacer "sont des antonymes, et veuillez en choisir un." Vous avez raison de dire que ce ne sont pas des antonymes, je répondais en contexte et vous avez choisi de poser la question. Donc, la mienne était la réponse polie. Et, je vais voter pour votre réponse, car je pense qu'elle est informative, sinon trop polie.
Carl

2

n=400 est un test d'adéquation de la fonction de densité cumulative plus puissant que le test de Kolmogorov-Smirnov et peut avoir une puissance supérieure ou inférieure au test t. Le chi carré a des difficultés avec un faible nombre de cellules, donc des restrictions de portée sont utilisées pour ajuster les queues.

** Question 1: ... ces deux méthodes ... sont-elles toujours à la pointe de la technologie? ou remplacé par de meilleures approches déjà? Question 2 Quel est l'intervalle de confiance pour de tels tests? **

Réponse: Ils sont à la pointe de la technologie. Cependant, nous voulons parfois des intervalles de confiance et non des probabilités. Lorsque nous comparons ces méthodes entre elles, nous parlons de puissance plutôt que d'intervalles de confiance. Parfois, la qualité de l'ajustement est analysée en utilisant AIC, BIC et d'autres critères contrairement aux probabilités de bon ajustement, et parfois le critère de qualité de l'ajustement n'est pas pertinent, par exemple, lorsque la qualité de l'ajustement n'est pas le critère d'ajustement . Dans ce dernier cas, notre objectif de régression peut être une quantité physique non liée à l'ajustement, par exemple, voir Tk-GV .


NB Le test d'Anderson-Darling est une version pondérée du test de Cramer-von Mises; &, comme lui, adapté à toute distribution continue.
Scortchi - Réintégrer Monica
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.