Tout en faisant un EDA, j'ai décidé d'utiliser un diagramme en boîte pour illustrer la différence entre deux niveaux d'un facteur.
La façon dont ggplot a rendu le diagramme en boîte était satisfaisante, mais légèrement simpliste (premier tracé ci-dessous). Tout en recherchant les caractéristiques des parcelles en caissons, j'ai commencé à expérimenter avec des encoches.
Je comprends que les encoches affichent l'IC autour de la médiane, et que si les encoches de deux cases ne se chevauchent pas, il y a des "preuves solides" - à un niveau de confiance de 95% - que les médianes diffèrent.
Dans mon cas (deuxième tracé), les encoches ne se chevauchent pas de manière significative. Mais pourquoi le fond de la boîte à droite prend-il cette étrange forme?
Le tracé des mêmes données dans un tracé de violon n'a rien révélé d'inhabituel au sujet de la densité de probabilité du violon correspondant.
ggplot2
. J'aime aussi l'idée de tracer les points de données individuels, mais c'est frustrant dans la mesure où les points dans la boîte sombre sont rendus invisibles.