Comprendre les moustaches d'un boxplot

J'ai une question concernant l'interprétation des moustaches d'un boxplot. J'ai lu ce qui suit: "En haut et en bas du rectangle, les" moustaches "montrent la plage de 1,5 fois la distance entre les quantiles de 0,25 et 0,75", mais je ne comprends pas entièrement ce que l'on entend par "distance" .

Il ne peut pas être question de la masse de probabilité, car entre le quantile 0,25 et 0,75, nous avons évidemment toujours le même pourcentage de données. Quelle est donc l'idée?

data-visualization boxplot

— Invité555
source

La valeur de X qui correspond au 75 quantile moins la valeur de X qui correspond au 25 est la distance. Par exemple, pour SAT Math Test, 620 est le 75e et 520 est le 25e quantile. Donc, si vous obtenez un score supérieur à 620, vous avez terminé mieux que 75% des candidats. Les moustaches s'étendraient jusqu'à 1,5 * (620-520) points de long.

— Dimitriy V. Masterov
source

Eh bien, mais les moustaches seraient de la même longueur des deux côtés de la boîte (ce qui n'est pas nécessairement le cas).

— Guest555

+1, une réponse (légèrement plus) complète est que les moustaches atteignent 1,5 * IQR, si vous n'avez plus de données dans cet intervalle, la moustache s'arrête net. De plus, toute donnée supplémentaire au-delà de ce point est tracée individuellement en tant que valeurs aberrantes potentielles.

— gung - Reinstate Monica

Avec cette petite explication supplémentaire, c'est clair maintenant, merci beaucoup!

— Guest555

J'ai édité la réponse avec l'excellent point de @ gung.

— Dimitriy V. Masterov

@gung et une réponse encore plus complète est que les moustaches reposent toujours sur un point existant dans les données

— hadley

Un boxplot est destiné à résumer un ensemble relativement petit de données d'une manière qui montre clairement

Une valeur centrale.
La propagation des valeurs "typiques".
Valeurs individuelles qui s'écartent tellement de la valeur centrale, par rapport à la dispersion, qu'elles sont choisies pour une attention particulière et identifiées séparément (par leur nom, par exemple). Celles-ci sont appelées «valeurs identifiées».

Cela doit être fait de manière robuste : cela signifie que le boxplot ne devrait pas être sensiblement différent quand une, ou une partie relativement petite, des valeurs de données est arbitrairement modifiée.

La solution adoptée par son inventeur John Tukey est d'utiliser les statistiques de commande - les données triées du plus bas au plus élevé - de manière systématique. Pour plus de simplicité (il a fait des calculs mentalement ou avec un crayon et du papier) Tukey s'est concentré sur les médianes : les valeurs moyennes des lots de nombres. (Pour les lots avec des nombres pairs, Tukey a utilisé le point médian des deux valeurs moyennes.) Une médiane est résistante aux changements de jusqu'à la moitié des données sur lesquelles elle est basée, ce qui la rend excellente comme statistique robuste. Donc:

La valeur centrale est estimée avec la médiane de toutes les données.
L' écart est estimé avec la différence entre les médianes de la "moitié supérieure" - toutes les données égales ou supérieures à la médiane - et la "moitié inférieure" - toutes les données égales ou inférieures à la médiane. Ces deux médianes sont appelées "charnières" supérieures et inférieures ou "quarts". Ils tendent aujourd'hui à être remplacés par des choses appelées quartiles (qui n'ont hélas pas de définition universelle).
Des clôtures invisibles pour le criblage des valeurs aberrantes sont érigées 1,5 et 3 fois la propagation au-delà des charnières (loin de la valeur centrale).
- "La valeur à chaque extrémité la plus proche, mais toujours à l'intérieur, de la clôture intérieure est" adjacente "."
- Les valeurs au-delà de la première clôture sont appelées «valeurs aberrantes».
- Les valeurs au-delà de la deuxième clôture sont «très éloignées».

(Ceux qui sont assez vieux pour se souvenir de l' argot hippie des années 60 comprendront la blague.)

Étant donné que l'écart est une différence de valeurs de données, ces clôtures ont les mêmes unités de mesure que les données d'origine: c'est le sens de la «distance» dans la question.

Concernant les valeurs des données à identifier, Tukey a écrit

Nous pouvons au moins identifier les valeurs extrêmes, et nous ferions bien d'en identifier quelques autres.

Toute méthode graphique pour afficher la médiane, les charnières et les valeurs identifiées mérite sans doute d'être appelée un "boxplot" (à l'origine, "box-and-whisker plot"). Les clôtures ne sont généralement pas représentées. La conception de Tukey se compose d'un rectangle décrivant les charnières avec une "taille" à la médiane. Des "moustaches" en forme de ligne discrètes s'étendent vers l'extérieur depuis les charnières jusqu'aux valeurs les plus identifiées (à la fois au-dessus et au-dessous de la boîte). Habituellement, ces valeurs les plus identifiées sont les valeurs adjacentes définies ci-dessus.

Par conséquent, l'apparence par défaut d'une boîte à moustaches est d'étendre les moustaches aux valeurs de données non périphériques les plus extrêmes et d'identifier (via des étiquettes de texte) les données comprenant les extrémités des moustaches et toutes les valeurs aberrantes. Par exemple, le volcan Tupungatito est la valeur adjacente élevée pour les données de hauteurs de volcan représentées à droite de la figure: la moustache s'arrête là. Tupungatito et tous les volcans plus hauts sont identifiés séparément.

Pour que cela affiche fidèlement les données, la distance dans le graphique est proportionnelle aux différences de valeurs des données. (Tout écart par rapport à la proportionnalité directe introduirait un «facteur de mensonge» dans la terminologie de Tufte (1983).)

Ces deux boîtes à moustaches du livre de Tukey EDA (p. 41) illustrent les composants. Il est à noter qu'il a identifié des valeurs non périphériques aux extrémités haute et basse du jeu de données des États à gauche et une valeur non périphérique basse des hauteurs du volcan à droite. Cela illustre l'interaction des règles et du jugement qui imprègne le livre.

(Vous pouvez dire que ces données identifiées ne sont pas éloignées, car vous pouvez estimer l'emplacement des clôtures. Par exemple, les charnières des hauteurs d'état sont proches de 11 000 et 1 000, ce qui donne un écart d'environ 10 000. La multiplication par 1,5 et 3 donne les distances de 15 000 et 30 000. Ainsi, la clôture supérieure invisible doit être proche de 11 000 + 15 000 = 26 000 et la clôture inférieure, de 1 000 - 15 000, serait inférieure à zéro. Les clôtures lointaines seraient près de 11 000 + 30 000 = 41 000 et 1 000 - 30 000 = -29 000.)

Références

Tufte, Edward. L'affichage visuel des informations quantitatives. Cheshire Press, 1983.

Tukey, John. Chapitre 2, EDA . Addison-Wesley, 1977.

— whuber
source