Il vaut la peine d'être clair sur le but de votre intrigue. En général, il existe deux types d'objectifs différents: vous pouvez créer des graphiques pour évaluer les hypothèses que vous faites et guider le processus d'analyse des données, ou vous pouvez créer des graphiques pour communiquer un résultat aux autres. Ce ne sont pas les mêmes; par exemple, de nombreux téléspectateurs / lecteurs de votre intrigue / analyse peuvent être statistiquement non sophistiqués et ne pas être familiers avec l'idée, par exemple, de la variance égale et de son rôle dans un test t. Vous voulez que votre intrigue transmette les informations importantes sur vos données, même à des consommateurs comme eux. Ils font implicitement confiance que vous avez fait les choses correctement. D'après votre configuration de questions, je suppose que vous recherchez ce dernier type.
De manière réaliste, l'intrigue la plus courante et la plus acceptée pour communiquer les résultats d'un test t 1 à d'autres (mis à part s'il est réellement le plus approprié) est un diagramme à barres des moyennes avec des barres d'erreur standard. Cela correspond très bien au test t dans la mesure où un test t compare deux moyennes en utilisant leurs erreurs standard. Lorsque vous avez deux groupes indépendants, cela donnera une image intuitive, même pour les personnes statistiquement peu sophistiquées, et (si les données le permettent), les gens peuvent "immédiatement voir qu'ils sont probablement de deux populations différentes". Voici un exemple simple utilisant les données de @ Tim:
nonsmokers <- c(18,22,21,17,20,17,23,20,22,21)
smokers <- c(16,20,14,21,20,18,13,15,17,21)
m = c(mean(nonsmokers), mean(smokers))
names(m) = c("nonsmokers", "smokers")
se = c(sd(nonsmokers)/sqrt(length(nonsmokers)),
sd(smokers)/sqrt(length(smokers)))
windows()
bp = barplot(m, ylim=c(16, 21), xpd=FALSE)
box()
arrows(x0=bp, y0=m-se, y1=m+se, code=3, angle=90)
Cela dit, les spécialistes de la visualisation des données dédaignent généralement ces graphiques. Ils sont souvent ridiculisés comme des "parcelles de dynamite" (cf. Pourquoi les parcelles de dynamite sont mauvaises ). En particulier, si vous ne disposez que de quelques données, il est souvent recommandé de simplement afficher les données elles-mêmes . Si les points se chevauchent, vous pouvez les faire trembler horizontalement (ajouter une petite quantité de bruit aléatoire) afin qu'ils ne se chevauchent plus. Parce qu'un test t concerne fondamentalement les moyennes et les erreurs standard, il est préférable de superposer les moyennes et les erreurs standard sur un tel tracé. Voici une version différente:
set.seed(4643)
plot(jitter(rep(c(0,1), each=10)), c(nonsmokers, smokers), axes=FALSE,
xlim=c(-.5, 1.5), xlab="", ylab="")
box()
axis(side=1, at=0:1, labels=c("nonsmokers", "smokers"))
axis(side=2, at=seq(14,22,2))
points(c(0,1), m, pch=15, col="red")
arrows(x0=c(0,1), y0=m-se, y1=m+se, code=3, angle=90, length=.15)
Si vous avez beaucoup de données, les boîtes à moustaches peuvent être un meilleur choix pour obtenir un aperçu rapide des distributions, et vous pouvez également y superposer les moyens et les SE.
data(randu)
x1 = qnorm(randu[,1])
x2 = qnorm(randu[,2])
m = c(mean(x1), mean(x2))
se = c(sd(x1)/sqrt(length(x1)), sd(x2)/sqrt(length(x2)))
boxplot(x1, x2)
points(c(1,2), m, pch=15, col="red")
arrows(x0=1:2, y0=m-(1.96*se), y1=m+(1.96*se), code=3, angle=90, length=.1)
# note that I plotted 95% CIs so that they will be easier to see
Les diagrammes simples des données et les diagrammes en boîte sont suffisamment simples pour que la plupart des gens puissent les comprendre même s'ils ne sont pas très avertis sur le plan statistique. Gardez à l'esprit, cependant, qu'aucun de ces éléments ne permet d'évaluer facilement la validité d'avoir utilisé un test t pour comparer vos groupes. Ces objectifs sont mieux servis par différents types de parcelles.
1. Notez que cette discussion suppose un test t d'échantillons indépendants. Ces graphiques pourraient être utilisés avec un test t d'échantillons dépendants, mais pourraient également être trompeurs dans ce contexte (cf., Est-ce que l'utilisation de barres d'erreur pour les moyennes dans une étude intra-sujets est mauvaise? ).