Avantages de l'utilisation des tracés QQ sur les histogrammes


22

Dans ce commentaire , Nick Cox a écrit:

Le regroupement en classes est une méthode ancienne. Bien que les histogrammes puissent être utiles, les logiciels statistiques modernes facilitent et recommandent d'adapter les distributions aux données brutes. Le regroupement jette simplement les détails cruciaux pour déterminer les distributions plausibles.

Le contexte de ce commentaire suggère d'utiliser les parcelles QQ comme moyen alternatif pour évaluer l'ajustement. La déclaration semble très plausible, mais j'aimerais connaître une référence fiable soutenant cette déclaration. Existe-t-il un document qui fasse une enquête plus approfondie de ce fait, au-delà d'un simple «eh bien, cela semble évident»? Y a-t-il des comparaisons systématiques réelles des résultats ou autres

J'aimerais également voir dans quelle mesure cet avantage des tracés QQ par rapport aux histogrammes peut être étendu à des applications autres que l'ajustement de modèle. Les réponses à cette question s'accordent à dire qu '«un complot QQ […] vous dit simplement que« quelque chose ne va pas »». Je pense à les utiliser comme un outil pour identifier la structure des données observées par rapport à un modèle nul et je me demande s'il existe des procédures établies pour utiliser les parcelles QQ (ou leurs données sous-jacentes) pour non seulement détecter mais aussi décrire non aléatoire structure dans les données observées. Des références qui incluent cette direction seraient donc particulièrement utiles.


4
stats.stackexchange.com/questions/51718/… répond déjà à la moitié de la question, à savoir pourquoi il est préférable d'éviter les histogrammes, peu importe avec quoi vous les remplacez.
Gala

Réponses:


25

Le papier canonique était ici

Wilk, MB et R. Gnanadesikan. 1968. Méthodes de traçage des probabilités pour l'analyse des données. Biometrika 55: 1-17

et il rembourse toujours une lecture étroite et répétée.

Un traitement lucide avec de nombreux bons exemples a été donné par

Cleveland, WS 1993. Visualisation des données. Sommet, NJ: Hobart Press.

et il convient de mentionner le plus introductif

Cleveland, WS 1994. Les éléments de la représentation graphique des données. Sommet, NJ: Hobart Press.

D'autres textes contenant une exposition raisonnable à cette approche comprennent

Davison, AC 2003. Modèles statistiques. Cambridge: Cambridge University Press.

Rice, JA 2007. Statistiques mathématiques et analyse des données. Belmont, Californie: Duxbury.

Cela dit, je ne sais rien de ce que vous demandez. Une fois que vous avez vu l'intérêt des diagrammes quantile-quantile, montrer en détail que les histogrammes sont une alternative de second ordre ne semble ni intéressant ni utile, trop comme tirer des poissons dans un baril.

Mais je résumerais comme ceci:

  1. Le binning supprime les détails, et les détails sont souvent importants. Cela peut s'appliquer non seulement à ce qui se passe exactement dans la queue, mais aussi à ce qui se passe au milieu. Par exemple, la granularité ou la multimodalité peuvent être importantes ainsi que l'asymétrie ou le poids de la queue.

  2. Le binning nécessite des décisions sur l'origine et la largeur du bin, ce qui peut affecter l'apparence des histogrammes, il est donc difficile de voir ce qui est réel et ce qui est un effet secondaire des choix. Si votre logiciel prend ces décisions pour vous, les problèmes persistent. (Par exemple, les choix de bacs par défaut sont souvent conçus pour que vous n'utilisiez pas "trop ​​de bacs", c'est-à-dire avec le motif de lisser un peu.)

  3. Le problème graphique et psychologique de la comparaison de deux histogrammes est plus délicat que celui de juger l'adéquation d'un ensemble de points à une ligne droite.

[Ajouté le 27 sept. 2017] 4. Les parcelles quantiles peuvent varier très facilement si l'on considère une ou plusieurs échelles transformées. Par transformation, j'entends ici une transformation non linéaire, pas par exemple une mise à l'échelle par un maximum ou une standardisation par (valeur-moyenne) / SD. Si les quantiles ne sont que les statistiques d'ordre, alors tout ce que vous avez à faire est d'appliquer la transformation, comme par exemple le logarithme du maximum est identique au maximum des logarithmes, et ainsi de suite. (Trivialement, la réciprocité inverse l'ordre.) Même si vous tracez des quantiles sélectionnés qui sont basés sur des statistiques à deux ordres, ils sont généralement juste interpolés entre deux valeurs de données d'origine et l'effet de l'interpolation est trivial. En revanche, les histogrammes sur log ou autres échelles transformées nécessitent une nouvelle décision sur l'origine et la largeur du bac qui n'est pas particulièrement difficile, mais ce n'est pas trivial. On peut en dire autant de l'estimation de la densité comme moyen de résumer la distribution.


8

Voir le travail de William S. Cleveland.

La visualisation des données est probablement la meilleure source unique, mais consultez également sa page Web , en particulier la bibliographie et la page pour la visualisation des données (y compris le code S + qui est adaptable pour une utilisation dans R).

Cleveland a beaucoup de raisons pour lesquelles les graphiques QQ sont bons et pourquoi les histogrammes ne sont pas si bons.



7

Une fois que vous avez appris à les utiliser, les tracés QQ vous permettent d'identifier l'asymétrie, la lourdeur, la forme générale, les pics, etc., les mêmes types de caractéristiques que les gens ont tendance à utiliser des histogrammes pour essayer d'évaluer.

Les estimations de densité du noyau ou les estimations de densité log-spline peuvent éviter certains des problèmes d'histogrammes que Gala a signalés dans les commentaires.

Considérez cet exemple de ce lien:

Cependant, à moins que vous ne soyez très chanceux, la discrétion insoupçonnée peut parfois être manquée avec un histogramme, et même avec les estimations de densité lisses (parce qu'elles lissent, naturellement), mais sera souvent évidente sur les parcelles QQ. Les estimations de densité lisses - sauf si elles sont traitées spécialement - peuvent également avoir des problèmes avec les variables bornées.

Les histogrammes et les estimations de densité lisses reposent tous deux sur une approximation des données - ce qui peut être utile - mais peuvent également introduire des artefacts ou des choses quelque peu déformées.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.