Les graphiques à barres empilées sont généralement bien compris par les non-statisticiens, à condition qu'ils soient introduits doucement. Il est utile de les mettre à l'échelle sur une métrique commune (par exemple 0-100%), avec une couleur graduelle pour chaque catégorie si ce sont des éléments ordinaux (par exemple Likert). Je préfère dotchart (Cleveland dot plot), quand il n'y a pas trop d'articles et pas plus de 3-5 catégories de réponses. Mais c'est vraiment une question de clarté visuelle. Je fournis généralement% car il s'agit d'une mesure standardisée, et je ne signale que les% et les décomptes avec un graphique à barres non empilé. Voici un exemple de ce que je veux dire:
data(Environment, package="ltm")
Environment[sample(1:nrow(Environment), 10),1] <- NA
na.count <- apply(Environment, 2, function(x) sum(is.na(x)))
tab <- apply(Environment, 2, table)/
apply(apply(Environment, 2, table), 2, sum)*100
dotchart(tab, xlim=c(0,100), xlab="Frequency (%)",
sub=paste("N", nrow(Environment), sep="="))
text(100, c(2,7,12,17,22,27), rev(na.count), cex=.8)
mtext("# NA", side=3, line=0, at=100, cex=.8)
Un meilleur rendu pourrait être obtenu avec lattice
ou ggplot2
. Tous les éléments ont les mêmes catégories de réponses dans cet exemple particulier, mais dans un cas plus général, nous pouvons nous attendre à des réponses différentes, de sorte que leur affichage ne semble pas redondant comme c'est le cas ici. Il serait cependant possible de donner la même couleur à chaque catégorie de réponse afin de faciliter la lecture.
Mais je dirais que les graphiques à barres empilées sont meilleurs lorsque tous les éléments ont la même catégorie de réponse, car ils aident à apprécier la fréquence d'une modalité de réponse entre les éléments:
Je peux également penser à une sorte de carte thermique, qui est utile s'il existe de nombreux éléments avec une catégorie de réponse similaire.
Les réponses manquantes (en particulier lorsqu'elles ne sont pas négligeables ou localisées sur un élément / une question spécifique) doivent être signalées, idéalement pour chaque élément. Généralement, le% de réponses pour chaque catégorie est calculé sans NA. C'est ce qui se fait habituellement en enquête ou en psychométrie (on parle de "réponses exprimées ou observées").
PS
Je peux penser à d' autres choses de fantaisie comme l'image ci - dessous (la première a été faite à la main, le second est de ggplot2
, ggfluctuation(as.table(tab))
), mais je ne pense pas transmettre des informations aussi précises que dotplot ou barchart puisque les variations de surface sont difficiles à apprécier.