+1 à @NickSabbe, car 'l'intrigue vous dit simplement que "quelque chose ne va pas"', ce qui est souvent la meilleure façon d'utiliser un qq-intrigue (car il peut être difficile de comprendre comment les interpréter). Cependant, il est possible d'apprendre à interpréter un qq-plot en réfléchissant à la manière d'en créer un.
Vous commenceriez par trier vos données, puis vous compteriez votre chemin à partir de la valeur minimale en prenant chacune un pourcentage égal. Par exemple, si vous aviez 20 points de données, lorsque vous comptiez le premier (le minimum), vous vous diriez: «J'ai compté 5% de mes données». Vous suivriez cette procédure jusqu'à la fin, auquel cas vous auriez passé 100% de vos données. Ces valeurs en pourcentage peuvent ensuite être comparées aux mêmes valeurs en pourcentage de la normale théorique correspondante (c'est-à-dire la normale avec la même moyenne et le même écart-type).
Lorsque vous allez les tracer, vous découvrirez que vous avez des problèmes avec la dernière valeur, qui est 100%, car lorsque vous avez traversé 100% d'une normale théorique, vous êtes «à» l'infini. Ce problème est résolu en ajoutant une petite constante au dénominateur à chaque point de vos données avant de calculer les pourcentages. Une valeur typique serait d'ajouter 1 au dénominateur; par exemple, vous appelleriez votre 1er (sur 20) point de données 1 / (20 + 1) = 5%, et votre dernier serait 20 / (20 + 1) = 95%. Maintenant, si vous tracez ces points par rapport à une normale théorique correspondante, vous aurez un tracé pp(pour tracer les probabilités par rapport aux probabilités). Un tel tracé montrerait très probablement les écarts entre votre distribution et une normale au centre de la distribution. Cela est dû au fait que 68% d'une distribution normale se situe dans +/- 1 SD, donc les parcelles pp ont une excellente résolution là-bas, et une mauvaise résolution ailleurs. (Pour en savoir plus sur ce point, il peut être utile de lire ma réponse ici: PP-parcelles vs QQ-parcelles .)
Souvent, nous sommes les plus préoccupés par ce qui se passe dans les queues de notre distribution. Pour obtenir une meilleure résolution , il (et donc pire résolution au milieu), nous pouvons construire une qq parcelle au lieu. Nous le faisons en prenant nos ensembles de probabilités et en les passant à travers l'inverse du CDF de la distribution normale (c'est comme lire la table z au dos d'un livre de statistiques à l'envers - vous lisez une probabilité et lisez un z- But). Le résultat de cette opération est deux ensembles de quantiles , qui peuvent être tracés l'un contre l'autre de manière similaire.
@whuber a raison de dire que la ligne de référence est tracée ensuite (généralement) en trouvant la meilleure ligne d'ajustement à travers les 50% des points du milieu (c'est-à-dire du premier quartile au troisième). Ceci est fait pour faciliter la lecture de l'intrigue. En utilisant cette ligne, vous pouvez interpréter l'intrigue comme vous montrant si les quantiles de votre distribution s'écartent progressivement d'une vraie normale lorsque vous vous déplacez dans les queues. (Notez que la position des points plus éloignés du centre n'est pas vraiment indépendante de ceux qui sont plus proches; donc le fait que, dans votre histogramme spécifique, les queues semblent se rejoindre après que les `` épaules '' diffèrent ne signifie pas que les quantiles sont à nouveau les mêmes.)
X- 3y- .2les données dans cette queue de votre distribution que dans une normale théorique. En d'autres termes:
- si les deux queues tournent dans le sens antihoraire, vous avez des queues lourdes ( leptokurtosis ),
- si les deux queues tournent dans le sens horaire, vous avez des queues légères (platykurtosis),
- si votre queue droite se tord dans le sens antihoraire et votre queue gauche se tord dans le sens horaire, vous avez un biais droit
- si votre queue gauche se tord dans le sens antihoraire et votre queue droite se tord dans le sens horaire, vous avez un biais gauche