Wilk, MB et Gnanadesikan, R. 1968. Méthodes de traçage de probabilité pour l'analyse des données.
Biometrika 55: 1-17. Lien Jstor si vous y avez accès
Cet article a presque 50 ans au moment où j'écris, mais se sent toujours frais et innovant. En utilisant une riche variété d'exemples intéressants et substantiels, les auteurs unifient et développent une variété d'idées pour tracer et comparer des distributions en utilisant le cadre des tracés QQ (quantile-quantile) et PP (probabilité-probabilité). Ici, les distributions désignent globalement tous les ensembles de données ou de nombres (résidus, contrastes, etc., etc.) résultant de leurs analyses.
Des versions particulières de ces graphiques remontent à plusieurs décennies, le plus évidemment des graphiques de probabilité normale ou de scores normaux. qui sont en ces termes des diagrammes quantile-quantile, à savoir des graphiques des quantiles observés par rapport aux quantiles attendus ou théoriques à partir d'un échantillon de la même taille à partir d'une distribution normale (gaussienne). Mais les auteurs montrent, modestement mais avec confiance, que les mêmes idées peuvent être étendues facilement - et pratiquement avec l'informatique moderne - pour examiner d'autres types de quantiles et tracer automatiquement les résultats.
Les auteurs, alors tous deux chez Bell Telephone Laboratories, bénéficiaient d'installations informatiques de pointe, et même de nombreuses universités et instituts de recherche ont mis une dizaine d'années à se rattraper. Même maintenant, les idées contenues dans cet article méritent une application plus large qu'elles n'en ont. Il s'agit d'un texte ou d'un cours d'introduction rare qui inclut l'une de ces idées autres que l'intrigue QQ normale. Les histogrammes et les diagrammes en boîte (chacun souvent très utile, mais néanmoins chacun maladroit et limité de plusieurs manières) continuent d'être les principaux agrafes lorsque des graphiques de distribution sont introduits.
Sur le plan personnel, même si les idées principales de cet article ont été familières pendant la majeure partie de ma carrière, j'aime le relire tous les deux ans environ. Une bonne raison est le plaisir de voir comment les auteurs donnent des idées simples mais puissantes à bon escient avec des exemples sérieux. Une autre bonne raison est la façon dont le document, qui est rédigé de manière concise, sans la moindre trace de bombe, fait allusion à des extensions des idées principales. Plus d'une fois, j'ai redécouvert des rebondissements sur les principales idées couvertes explicitement dans les astuces et autres commentaires.
Ce n'est pas seulement un document pour ceux qui s'intéressent particulièrement aux graphiques statistiques, bien qu'à mon avis, cela devrait inclure tous ceux qui s'intéressent aux statistiques de toute nature. Il favorise des façons de penser les distributions qui sont pratiquement utiles pour développer les compétences et les connaissances statistiques de quiconque.