Une mesure de l'asymétrie est basée sur la médiane moyenne - le deuxième coefficient d'asymétrie de Pearson .
Une autre mesure de l'asymétrie est basée sur les différences relatives de quartile (Q3-Q2) vs (Q2-Q1) exprimées sous forme de ratio
Lorsque (Q3-Q2) vs (Q2-Q1) est plutôt exprimé sous la forme d'une différence (ou médiane médiane équivalente), cela doit être mis à l'échelle pour le rendre sans dimension (comme cela est généralement nécessaire pour une mesure d'asymétrie), par exemple par l'IQR, comme ici (en mettant ).u = 0,25
La mesure la plus courante est bien sûr l’ asymétrie au troisième moment .
Il n'y a aucune raison que ces trois mesures soient nécessairement cohérentes. Chacun d'entre eux pourrait être différent des deux autres.
Ce que nous considérons comme une «asymétrie» est un concept quelque peu glissant et mal défini. Voir ici pour plus de discussion.
Si nous regardons vos données avec un qqplot normal:
[La ligne marquée là-bas est basée uniquement sur les 6 premiers points, parce que je veux discuter de l'écart des deux derniers par rapport au modèle.]
On voit que les 6 plus petits points se situent presque parfaitement sur la ligne.
Ensuite, le 7ème point est en dessous de la ligne (plus proche du milieu que le deuxième point correspondant depuis l'extrémité gauche), tandis que le huitième point se situe bien au-dessus.
Le 7ème point suggère un léger biais gauche, le dernier, un biais droit plus fort. Si vous ignorez l'un ou l'autre point, l'impression d'asymétrie est entièrement déterminée par l'autre.
Si je devais dire que c'était l'un ou l'autre, j'appellerais cela un "biais correct" mais je soulignerais également que l'impression était entièrement due à l'effet de ce très gros point. Sans cela, il n'y a vraiment rien à dire que c'est juste. (D'un autre côté, sans le 7ème point à la place, ce n'est clairement pas de gauche.)
Nous devons être très prudents lorsque notre impression est entièrement déterminée par des points uniques et peut être inversée en supprimant un point. Ce n'est pas une bonne base pour continuer!
Je pars du principe que ce qui fait une valeur aberrante est le modèle (ce qui est une valeur aberrante par rapport à un modèle peut être tout à fait typique sous un autre modèle).
Je pense qu'une observation au 0,01 centile supérieur (1/10000) d'une normale (3,72 sds au-dessus de la moyenne) est tout aussi aberrante pour le modèle normal qu'une observation au 0,01 centile supérieur d'une distribution exponentielle l'est pour le modèle exponentiel. (Si nous transformons une distribution par sa propre transformée intégrale de probabilité, chacune ira au même uniforme)
Pour voir le problème de l'application de la règle du boxplot à une distribution asymétrique même modérément droite, simulez de grands échantillons à partir d'une distribution exponentielle.
Par exemple, si nous simulons des échantillons de taille 100 à partir d'une normale, nous faisons en moyenne moins d'une valeur aberrante par échantillon. Si nous le faisons avec une exponentielle, nous faisons en moyenne environ 5. Mais il n'y a pas de base réelle pour dire qu'une proportion plus élevée de valeurs exponentielles sont "éloignées" à moins que nous ne le fassions par comparaison avec (disons) un modèle normal. Dans des situations particulières, nous pourrions avoir des raisons spécifiques d'avoir une règle aberrante d'une forme particulière, mais il n'y a pas de règle générale, ce qui nous laisse avec des principes généraux comme celui avec lequel j'ai commencé dans cette sous-section - pour traiter chaque modèle / distribution sur ses propres lumières (si une valeur n'est pas inhabituelle par rapport à un modèle, pourquoi l'appeler une valeur aberrante dans cette situation?)
Pour passer à la question dans le titre :
Bien que ce soit un instrument assez grossier (c'est pourquoi j'ai regardé l'intrigue QQ), il y a plusieurs indications d'asymétrie dans un boxplot - s'il y a au moins un point marqué comme aberrant, il y en a potentiellement (au moins) trois:
Dans cet échantillon (n = 100), les points extérieurs (verts) marquent les extrêmes et avec la médiane suggèrent une asymétrie gauche. Ensuite, les clôtures (bleues) suggèrent (lorsqu'elles sont combinées à la médiane) suggèrent une asymétrie correcte. Ensuite, les charnières (quartiles, brunes) suggèrent une asymétrie gauche lorsqu'elles sont combinées avec la médiane.
Comme nous le voyons, ils n'ont pas besoin d'être cohérents. Ce sur quoi vous vous concentreriez dépend de la situation dans laquelle vous vous trouvez (et éventuellement de vos préférences).
Cependant, un avertissement sur à quel point le boxplot est brut . L'exemple vers la fin ici - qui comprend une description de la façon de générer les données - donne quatre distributions assez différentes avec le même boxplot:
Comme vous pouvez le voir, il y a une distribution assez asymétrique avec tous les indicateurs susmentionnés d'asymétrie montrant une symétrie parfaite.
-
Prenons cela du point de vue "à quelle réponse votre professeur s'attendait-il, étant donné qu'il s'agit d'un boxplot, qui marque un point comme une valeur aberrante?".
Il nous reste à répondre d'abord "s'attendent-ils à ce que vous évaluiez l'asymétrie en excluant ce point, ou avec lui dans l'échantillon?". Certains l'excluraient et évaluaient l'asymétrie de ce qui restait, comme l'a fait jsk dans une autre réponse. Bien que j'aie contesté certains aspects de cette approche, je ne peux pas dire que ce soit faux - cela dépend de la situation. Certains l'incluraient (notamment parce que l'exclusion de 12,5% de votre échantillon en raison d'une règle dérivée de la normalité semble un grand pas *).
* Imaginez une distribution de la population qui est symétrique sauf pour la queue d'extrême droite (j'en ai construit une telle en répondant à cela - normale mais avec la queue d'extrême droite étant Pareto - mais je ne l'ai pas présentée dans ma réponse). Si je tire des échantillons de taille 8, souvent 7 des observations proviennent de la partie d'aspect normal et une vient de la queue supérieure. Si nous excluons les points marqués comme aberrants dans ce cas, nous excluons le point qui nous indique qu'il s'agit en fait d'un biais! Lorsque nous le faisons, la distribution tronquée qui reste dans cette situation est asymétrique à gauche, et notre conclusion serait l'opposé de la bonne.