Le papier canonique était ici
Wilk, MB et R. Gnanadesikan. 1968. Méthodes de traçage des probabilités pour l'analyse des données. Biometrika 55: 1-17
et il rembourse toujours une lecture étroite et répétée.
Un traitement lucide avec de nombreux bons exemples a été donné par
Cleveland, WS 1993. Visualisation des données. Sommet, NJ: Hobart Press.
et il convient de mentionner le plus introductif
Cleveland, WS 1994. Les éléments de la représentation graphique des données. Sommet, NJ: Hobart Press.
D'autres textes contenant une exposition raisonnable à cette approche comprennent
Davison, AC 2003. Modèles statistiques. Cambridge: Cambridge University Press.
Rice, JA 2007. Statistiques mathématiques et analyse des données. Belmont, Californie: Duxbury.
Cela dit, je ne sais rien de ce que vous demandez. Une fois que vous avez vu l'intérêt des diagrammes quantile-quantile, montrer en détail que les histogrammes sont une alternative de second ordre ne semble ni intéressant ni utile, trop comme tirer des poissons dans un baril.
Mais je résumerais comme ceci:
Le binning supprime les détails, et les détails sont souvent importants. Cela peut s'appliquer non seulement à ce qui se passe exactement dans la queue, mais aussi à ce qui se passe au milieu. Par exemple, la granularité ou la multimodalité peuvent être importantes ainsi que l'asymétrie ou le poids de la queue.
Le binning nécessite des décisions sur l'origine et la largeur du bin, ce qui peut affecter l'apparence des histogrammes, il est donc difficile de voir ce qui est réel et ce qui est un effet secondaire des choix. Si votre logiciel prend ces décisions pour vous, les problèmes persistent. (Par exemple, les choix de bacs par défaut sont souvent conçus pour que vous n'utilisiez pas "trop de bacs", c'est-à-dire avec le motif de lisser un peu.)
Le problème graphique et psychologique de la comparaison de deux histogrammes est plus délicat que celui de juger l'adéquation d'un ensemble de points à une ligne droite.
[Ajouté le 27 sept. 2017] 4. Les parcelles quantiles peuvent varier très facilement si l'on considère une ou plusieurs échelles transformées. Par transformation, j'entends ici une transformation non linéaire, pas par exemple une mise à l'échelle par un maximum ou une standardisation par (valeur-moyenne) / SD. Si les quantiles ne sont que les statistiques d'ordre, alors tout ce que vous avez à faire est d'appliquer la transformation, comme par exemple le logarithme du maximum est identique au maximum des logarithmes, et ainsi de suite. (Trivialement, la réciprocité inverse l'ordre.) Même si vous tracez des quantiles sélectionnés qui sont basés sur des statistiques à deux ordres, ils sont généralement juste interpolés entre deux valeurs de données d'origine et l'effet de l'interpolation est trivial. En revanche, les histogrammes sur log ou autres échelles transformées nécessitent une nouvelle décision sur l'origine et la largeur du bac qui n'est pas particulièrement difficile, mais ce n'est pas trivial. On peut en dire autant de l'estimation de la densité comme moyen de résumer la distribution.