Je dirais qu'avec des données comme celles-ci, vous devez vraiment afficher les résultats sur une échelle transformée. C'est le premier impératif et une question plus importante que la façon précise de dessiner un diagramme en boîte.
Mais je fais écho à Frank Harrell en demandant instamment quelque chose de plus informatif qu'une intrigue minimale, même avec certains points extrêmes identifiés. Vous avez suffisamment d'espace pour afficher beaucoup plus d'informations. Voici l'un des nombreux exemples, une boîte hybride et un tracé quantile. Comme dans vos données, deux groupes sont comparés.
Je vais prendre ces deux points un par un et en dire plus.
Échelle transformée
Dans le cas le plus simple, toutes vos valeurs peuvent être positives et vous devez d'abord essayer d'utiliser une échelle logarithmique.
Si vous avez des zéros exacts, une échelle de racine carrée ou de racine de cube améliorera encore l'extrême asymétrie. Certaines personnes sont satisfaites du log (valeur + constante), où constant est le plus souvent 1, comme moyen de faire face aux zéros.
Les implications pour les boîtes à moustaches de l'utilisation d'une échelle transformée sont subtiles.
Si vous utilisez la convention Tukey commune de montrer individuellement tous les points au-delà du quartile supérieur + 1,5 IQR ou du quartile inférieur - 1,5 IQR, alors sans doute ces limites devraient être calculées sur l'échelle transformée. Ce n'est pas la même chose que de calculer ces limites sur l'échelle d'origine, puis de les transformer.
Au lieu de cela, je soutiendrais ce qui semble être encore une convention minoritaire de sélection des quantiles pour les extrémités des moustaches. Un des nombreux avantages de cela est que transformée de quantile = quantile de transformée, au moins assez étroitement pour des fins graphiques dans la plupart des cas. (Les petits caractères apparaissent chaque fois que les quantiles sont calculés par interpolation linéaire entre les statistiques d'ordre adjacentes.)
Cette convention quantile a été suggérée assez en évidence par Cleveland (1985). Pour mémoire, des boîtes à moustaches améliorées avec des boîtes aux quartiles, des boîtes plus minces aux octiles extérieurs (12,5 et 87,5% points) et des graphiques à bandes ont été utilisées en géographie et en climatologie par (par exemple) Matthews (1936) et Grove (1956), sous le nom "diagrammes de dispersion".
Plus que des parcelles de terrain
Les boîtes à moustaches ont été réinventées par Tukey vers 1970 et les plus visiblement promues dans son livre de 1977. Une grande partie de son objectif était de promouvoir des graphiques qui pourraient être rapidement dessinés à l'aide d'un stylo (cil) et de papier dans l'exploration informelle. Il proposait également des moyens d'identifier les valeurs aberrantes possibles. C'était bien, mais maintenant nous avons tous accès à des ordinateurs, il n'est pas difficile de dessiner des graphiques montrant, sinon toutes les données, du moins beaucoup plus de détails. Le rôle récapitulatif des boîtes à moustaches est précieux, mais un graphique peut également montrer la structure fine, au cas où il serait intéressant ou important. (Et ce que les chercheurs pensent être sans intérêt ou sans importance pourrait être plus frappant pour leurs lecteurs.)
Il y a beaucoup de place pour un désaccord poli sur ce qui fonctionne le mieux, mais les parcelles nues ont été plutôt survendues, à mon avis.
Les utilisateurs de Stata peuvent en savoir plus sur le programme qui a dessiné la figure dans ce post Statalist . Les utilisateurs d'autres logiciels ne devraient avoir aucune difficulté à dessiner quelque chose d'aussi bon ou meilleur (sinon pourquoi utiliser ce logiciel?).
Cleveland, WS 1985. Éléments de données graphiques. Monterey, Californie: Wadsworth.
Grove, AT 1956. Érosion des sols au Nigéria. In Steel, RW et Fisher, CA (Eds)
Essais géographiques sur les terres tropicales britanniques. Londres: George Philip, 79-111.
Matthews, HA 1936. Une nouvelle vue de quelques pluies indiennes familières. Scottish Geographical Magazine 52: 84-97.
Tukey, JW 1977. Analyse exploratoire des données. Reading, MA: Addison-Wesley.