Tout en faisant un EDA, j'ai décidé d'utiliser un diagramme en boîte pour illustrer la différence entre deux niveaux d'un facteur.
La façon dont ggplot a rendu le diagramme en boîte était satisfaisante, mais légèrement simpliste (premier tracé ci-dessous). Tout en recherchant les caractéristiques des parcelles en caissons, j'ai commencé à expérimenter avec des encoches.
Je comprends que les encoches affichent l'IC autour de la médiane, et que si les encoches de deux cases ne se chevauchent pas, il y a des "preuves solides" - à un niveau de confiance de 95% - que les médianes diffèrent.
Dans mon cas (deuxième tracé), les encoches ne se chevauchent pas de manière significative. Mais pourquoi le fond de la boîte à droite prend-il cette étrange forme?
Le tracé des mêmes données dans un tracé de violon n'a rien révélé d'inhabituel au sujet de la densité de probabilité du violon correspondant.

ggplot2. J'aime aussi l'idée de tracer les points de données individuels, mais c'est frustrant dans la mesure où les points dans la boîte sombre sont rendus invisibles.