Quantifier le tracé QQ


10

Le qq-plot peut être utilisé pour visualiser la similitude de deux distributions (par exemple, visualiser la similitude d'une distribution à une distribution normale, mais aussi pour comparer deux distributions de données de bibliothèque). Existe-t-il des statistiques qui génèrent une mesure numérique plus objective qui représente leur similitude (de préférence sous une forme normalisée (0 <= x <= 1))? Le coefficient de Gini est par exemple utilisé en économie lorsque l'on travaille avec des courbes de Lorenz; y a-t-il quelque chose pour les parcelles QQ?

Réponses:


8

Comme je l'ai dit en réponse à votre commentaire sur votre question précédente, consultez le test de Kolmogorov-Smirnov. Il utilise la distance absolue maximale entre deux fonctions de distribution cumulative (alternativement conçue comme la distance absolue maximale de la courbe dans le tracé QQ à partir de la ligne de 45 degrés) comme statistique. Le test KS peut être trouvé dans R en utilisant la commande ks.test()dans la bibliothèque 'stats'. Voici plus d'informations sur son utilisation R.


Notez que (si je comprends bien), le test KS sert à tester des données empiriques par rapport à une distribution a priori. Il n'est pas approprié de comparer deux distributions empiriques, ni de comparer des données empiriques à une distribution a priori dont les valeurs des paramètres ont été estimées à partir des données empiriques.
Mike Lawrence

4
@Mike, vous pouvez utiliser le test KS pour comparer deux distributions empiriquement dérivées, voir la réponse et les commentaires antérieurs de Charlie stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W

@Andy, Ah, j'ai pris le point 3 de itl.nist.gov/div898/handbook/eda/section3/eda35g.htm comme ayant le corollaire que vous ne pouvez pas comparer deux CDF empiriques, mais je vois que mon hypothèse n'était pas approprié. Bon à savoir, merci!
Mike Lawrence

2
Cependant, le point 3 implique que vous ne pouvez pas utiliser KS pour tester si vos données proviennent d'une distribution normale avec une moyenne et un sd estimés à partir des données . C'est une erreur populaire parmi les étudiants en psychologie que je rencontre.
Stephan Kolassa

1
(+1) L'aspect supérieur de cette réponse est que la statistique KS peut être lue directement sur le tracé QQ.
whuber

2

J'ai récemment utilisé la corrélation entre le CDF empirique et le CDF ajusté pour quantifier la qualité de l'ajustement, et je me demande si cette approche pourrait également être utile dans le cas actuel, qui, si je comprends bien, implique la comparaison de deux ensembles de données empiriques. Une interpolation peut être nécessaire s'il existe différents nombres d'observations entre les ensembles.


Votre article contient de très belles figures :)
chl

@chi: Ils ont tous été créés en R à l'aide de ggplot2. C'est un fantastique système de production graphique!
Mike Lawrence

Que voulez-vous dire par CDF équipé?
Ampleforth

@Ampleforth, dans cet article, j'adapte une distribution à des données empiriques, donc par "CDF ajusté", je voulais dire le CDF théorique de la distribution ajustée. Désolé, je vois comment j'aurais pu être plus clair!
Mike Lawrence

Oh, veuillez ne pas vous excuser. Mon manque de statistiques est assez important et c'est le seul problème ici;) De plus, je n'ai pas lu votre article, mais j'ai seulement jeté un coup d'œil à vos graphiques qui m'ont beaucoup plu.
Ampleforth

1

Je dirais que la manière plus ou moins canonique de comparer deux distributions serait un test du chi carré. La statistique n'est pas normalisée, cependant, et cela dépend de la façon dont vous choisissez les bacs. Le dernier point peut bien sûr être vu comme une fonctionnalité, pas comme un bug: le choix des bacs de manière appropriée vous permet de rechercher de plus près la similitude dans les queues qu'au milieu des distributions, par exemple.


1

Une mesure assez directe de la «proximité» de la linéarité dans un tracé QQ serait une statistique de test de Shapiro-Francia (qui est étroitement liée à la plus connue de Shapiro-Wilk et peut être considérée comme une simple approximation).

La statistique de Shapiro-Francia est la corrélation quadratique entre les valeurs de données ordonnées et les statistiques d'ordre normal attendues (parfois étiquetées "quantiles théoriques") - c'est-à-dire que ce devrait être le carré de la corrélation que vous voyez dans l'intrigue, une relation assez directe mesure sommaire.

(Le Shapiro-Wilk est similaire mais prend en compte les corrélations entre les statistiques de commande; il a une interprétation similaire à la Shapiro-Francia et est à peu près aussi utile qu'un résumé du graphique QQ.)

Quoi qu'il en soit, pour un résumé numérique unique de ce que le graphique QQ montre, l'un d'entre eux pourrait être un moyen approprié de résumer le graphique.

Personnellement, j'ai tendance à rechercher davantage l'écart par rapport à la linéarité que sa proximité (ce qui suggère de regarder ). Cette échelle a tendance à vous laisser des valeurs assez constantes pour une quantité donnée de non-normalité.1W

[Parfois, je multiplie par ( tend à devenir plus petit avec si l'échantillonnage est normal). Sous échantillonnage à partir d'une normale, la moyenne ou la médiane de tendance à être assez stable lorsque change. Cependant, la multiplication par n'est pas encore tout à fait correcte, elle sur-corrige légèrement - le résultat augmente avec quelque part entre et - mais cette variation est petite par rapport aux sortes de valeurs vous avez tendance à subir tout type d'écart substantiel par rapport à la normalité. Atteindre une échelle où la distribution ne change pas beaucoup avecn1W)nn(1W)nnnlog(n)log(n)nla rend plus semblable à une valeur de p transformée (moins utile comme mesure de la quantité de non-normalité, plus utile si vous êtes intéressé par quelque chose de plus comme juger si ce n'est pas simplement une variation aléatoire).]

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.