Je me demandais comment déduire la variance d'une variable à l'aide d'un boxplot. Est-il au moins possible de déduire si deux variables ont la même variance en observant leur boxplot?
Je me demandais comment déduire la variance d'une variable à l'aide d'un boxplot. Est-il au moins possible de déduire si deux variables ont la même variance en observant leur boxplot?
Réponses:
Non sans beaucoup d'hypothèses strictes, non. Si vous deviez supposer que la réponse était oui (au lieu de demander, pour laquelle je vous applaudis), je parie que je pourrais vous tromper avec cet (contre) exemple:set.seed(1);boxplot(rnorm(10000),c(-3,-2.65,rep((-2:2)*.674,5),2.65,3))
Ressemble assez similaire, non? Pourtant !
Dans le cas où ce n'est pas clair d'après le code, la population 2
est:
-3.000 -2.650 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 -1.348 -0.674 0.000
0.674 1.348 -1.348 -0.674 0.000 0.674 1.348 2.650 3.000
Et non, vous ne pouvez pas déduire que cette population est normale simplement parce qu'elle est exactement symétrique. Voici un graphique QQ de la population 2
:
Bien sûr, cela ne me semble pas normal.
Modifier - Réponse à votre commentaire:
La variance est une statistique numérique. Si les variances de deux distributions sont littéralement égales, c'est à peu près tout ce que vous avez à dire à ce sujet. Si deux distributions sont exactement normales , encore une fois, il y a une définition mathématique qui conviendra toutes les deux. Si deux distributions ne sont pas exactement normales ou égales en variance, vous ne devriez pas dire le contraire. Si vous voulez dire qu'ils sont approximativement égaux ou normaux, vous devez probablement définir «suffisamment approximatif» d'une manière adaptée à vos besoins, ce que vous n'avez pas spécifié ici. La sensibilité aux différences de distribution varie considérablement selon les analyses qui motivent généralement des questions comme la vôtre. Par exemple,il est assez robuste aux violations de ce dernier étant donné des tailles d'échantillon égales ), donc je ne recommanderais pas ce test pour comparer ma population 2
à la population 1
(la distribution normale).
Cela a été bien répondu. Ces commentaires supplémentaires sont un peu trop longs (MISE À JOUR: maintenant beaucoup trop longs) pour être considérés comme des commentaires.
Strictement, tout ce que vous pouvez lire sur une boîte à moustaches sur la variabilité d'une distribution est sa plage interquartile (la longueur ou la hauteur de la boîte) et sa plage (la longueur ou la hauteur entre les extrêmes de l'affichage).
À titre d'approximation, les boîtes à moustaches qui semblent identiques sont susceptibles d'avoir des écarts très similaires, mais attention. Les parcelles avec des positions de boîte ou des queues très différentes (ou les deux) sont très peu susceptibles d'avoir des écarts similaires, mais ce n'est pas impossible. Mais même si les graphiques en boîte semblent identiques, vous n'obtenez aucune information dans un graphique en boîte simple ou vanille sur la variabilité dans la boîte ou en fait la variabilité dans les moustaches (les lignes souvent affichées entre la boîte et les points de données à moins de 1,5 IQR du quartile le plus proche) . NB il existe plusieurs variantes de boîtes à moustaches; les auteurs sont souvent pauvres à documenter les règles précises utilisées par leur logiciel.
La popularité de l'intrigue a son prix. Les boîtes à moustaches peuvent être très utiles pour montrer les caractéristiques brutes de nombreux groupes ou variables (disons 20 ou 30, parfois même plus). Comme ils sont couramment utilisés pour comparer disons 2 ou 3 groupes, ils sont à mon avis surventés, car d'autres graphiques peuvent afficher beaucoup plus de détails de manière intelligible dans le même espace. Naturellement, cela est largement, sinon universellement apprécié, et diverses améliorations de l'intrigue montrent plus de détails.
Un travail sérieux avec des écarts nécessite l'accès aux données originales.
C'est une brosse large, et plus de détails pourraient être ajoutés. Par exemple, la position de la médiane dans la case donne parfois un peu plus d'informations.
MISE À JOUR
Je suppose que beaucoup plus de gens sont intéressés par les utilisations (et les limites) des diagrammes en boîte en général que par la question spécifique de déduire la variance d'un diagramme en boîte (à laquelle la réponse courte est "Vous ne pouvez pas, sauf indirectement, approximativement, et parfois "), je vais donc ajouter d'autres commentaires sur les alternatives, comme l'a demandé @Christian Sauer.
Les histogrammes utilisés judicieusement sont souvent encore compétitifs. Le texte d'introduction classique moderne de Freedman, Pisani et Purves les utilise partout.
Les graphiques à points ou à bandes (graphiques) (et par de nombreux autres noms) sont faciles à comprendre. Des points identiques peuvent être empilés, après le regroupement si vous le souhaitez. Vous pouvez ajouter des médianes et des quartiles, ou des intervalles de moyenne et de confiance, au contenu de votre cœur.
Les parcelles quantiles sont, semble-t-il, un goût acquis mais à plusieurs égards les plus polyvalentes de toutes. J'inclus ici des tracés de valeurs ordonnées de probabilité cumulative (position du tracé) ainsi que des tracés de quantile qui seraient droits si les données étaient une distribution de "marque" prise en compte (normale, exponentielle, gamma, peu importe). (Remerciements à @Scortchi pour la référence au "nom de marque" utilisé par CJ Geyer.)
Mais une liste complète n'est pas possible. (J'ajouterai, par exemple, que très occasionnellement, une représentation de la tige et de la feuille est exactement correcte pour voir des détails importants dans les données, comme lorsque la préférence numérique est rampante.) Le principe clé est que les meilleurs types de diagramme de distribution permettent la perception en apparence impossible d' une structure fine dans des données qui pourraient être intéressantes ou importantes (modalité, granularité, valeurs aberrantes, etc.) ainsi que d' une structure grossière (niveau, diffusion, asymétrie, etc.).
Les boîtes à moustaches ne sont pas aussi efficaces pour montrer toutes sortes de structures. Ils ne peuvent pas l'être et n'étaient pas censés l'être. Il vaut la peine de signaler que JW Tukey dans Exploratory data analysis Reading, MA: Addison-Wesley (1977) a donné un exemple de données bimodales de Rayleigh dont un diagramme à blocs masque complètement la structure principale. En tant que grand statisticien, il savait très bien que les diagrammes en boîte n'étaient pas toujours la solution.
Une pratique bizarre, répandue dans les textes d'introduction, consiste à discuter de l'ANOVA tout en invitant les lecteurs à regarder des diagrammes en boîte, qui montrent les médianes et les quartiles, et non les moyennes et les écarts (plutôt les écarts-types). Naturellement, regarder les données est bien mieux que de ne pas regarder, mais même ainsi, une représentation graphique plus appropriée est sans doute un tracé des données brutes avec des moyennes ajustées +/- un multiple approprié de SE.
Une approche naïve:
Dans une distribution normale, les quantiles de 25% et 75% sont situés à distance du centre. Cela donne que la densité centrée à 50% couvre le double de cette distance ( ). Dans une boîte à moustaches, l'intervalle interquartile (IQR, la distance entre le bas de la boîte et le haut) couvre la quantité d'échantillon centrée à 50%.1,35 ⋅ σ
Si vous faites l'hypothèse que votre population suit une distribution normale (ce qui est parfois une GRANDE hypothèse à faire, pas si triviale), alors l'écart-type de votre population pourrait être grossièrement estimé à partir de l'équation , qui est .σ = 0,74 ⋅ I Q R
Et à propos de la comparaison des variances par boxplot: des cases plus larges signifient des variances plus importantes, mais cela vous donne une compréhension exploratoire, et vous devez également prendre en compte les moustaches et les valeurs aberrantes. Pour confirmation, vous devez utiliser le contraste d'hypothèse.