Quelle est la différence entre les diagrammes de probabilité, les diagrammes PP et les diagrammes QQ lorsque vous essayez d'analyser une distribution ajustée aux données?
Quelle est la différence entre les diagrammes de probabilité, les diagrammes PP et les diagrammes QQ lorsque vous essayez d'analyser une distribution ajustée aux données?
Réponses:
Comme @ vector07 le note , le diagramme de probabilité est la catégorie la plus abstraite dont les diagrammes pp et qq sont membres. Ainsi, je discuterai de la distinction entre les deux derniers. La meilleure façon de comprendre les différences est de réfléchir à leur construction et de comprendre qu'il faut reconnaître la différence entre les quantiles d'une distribution et la proportion de la distribution que vous avez traversée lorsque vous atteignez un quantile donné. Vous pouvez voir la relation entre ceux-ci en traçant la fonction de distribution cumulative (CDF) d'une distribution. Par exemple, considérons la distribution normale standard:
Nous voyons qu'environ 68% de l'axe des y (région située entre les lignes rouges) correspond à 1/3 de l'axe des x (région située entre les lignes bleues). Cela signifie que lorsque nous utilisons la proportion de la distribution que nous avons traversée pour évaluer la correspondance entre deux distributions (c'est-à-dire que nous utilisons un graphique en pp), nous obtiendrons beaucoup de résolution au centre des distributions, mais moins à les queues. En revanche, lorsque nous utilisons les quantiles pour évaluer la correspondance entre deux distributions (c’est-à-dire que nous utilisons un graphique qq), nous obtenons une très bonne résolution au niveau des queues, mais moins au centre. (Etant donné que les analystes de données sont généralement plus préoccupés par les queues d'une distribution, ce qui aura plus d'effet sur l'inférence, par exemple, les qq-parcelles sont beaucoup plus courantes que les parcelles pp.)
Pour voir ces faits en action, je vais passer en revue la construction d'une parcelle pp et d'une parcelle qq. (Je décris aussi verbalement / plus lentement la construction d'une courbe qq-plot: QQ-plot ne correspond pas à l'histogramme .) Je ne sais pas si vous utilisez R, mais j'espère que cela s'expliquera tout seul:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Malheureusement, ces graphiques ne sont pas très distinctifs, car il existe peu de données et nous comparons une distribution normale normale à une distribution théorique correcte. Il n’ya donc rien de spécial à voir ni au centre ni dans l’arrière de la distribution. Pour mieux démontrer ces différences, je trace une distribution t (à queue grasse) avec 4 degrés de liberté et une distribution bimodale ci-dessous. Les queues épaisses sont beaucoup plus distinctives dans le graphique qq, alors que la bimodalité est plus distinctive dans le graphique pp.
Voici une définition de v8doc.sas.com :
Un graphique PP compare la fonction de distribution cumulative empirique d'un ensemble de données à une fonction de distribution cumulative théorique spécifiée F (·). Un graphique QQ compare les quantiles d'une distribution de données avec les quantiles d'une distribution théorique normalisée à partir d'une famille spécifiée de distributions.
Dans le texte, ils mentionnent également:
Référence :
SAS Institute Inc., SAS OnlineDoc®, version 8, Cary, Caroline du Nord: SAS Institute Inc., 1999