Un boxplot est destiné à résumer un ensemble relativement petit de données d'une manière qui montre clairement
Une valeur centrale.
La propagation des valeurs "typiques".
Valeurs individuelles qui s'écartent tellement de la valeur centrale, par rapport à la dispersion, qu'elles sont choisies pour une attention particulière et identifiées séparément (par leur nom, par exemple). Celles-ci sont appelées «valeurs identifiées».
Cela doit être fait de manière robuste : cela signifie que le boxplot ne devrait pas être sensiblement différent quand une, ou une partie relativement petite, des valeurs de données est arbitrairement modifiée.
La solution adoptée par son inventeur John Tukey est d'utiliser les statistiques de commande - les données triées du plus bas au plus élevé - de manière systématique. Pour plus de simplicité (il a fait des calculs mentalement ou avec un crayon et du papier) Tukey s'est concentré sur les médianes : les valeurs moyennes des lots de nombres. (Pour les lots avec des nombres pairs, Tukey a utilisé le point médian des deux valeurs moyennes.) Une médiane est résistante aux changements de jusqu'à la moitié des données sur lesquelles elle est basée, ce qui la rend excellente comme statistique robuste. Donc:
La valeur centrale est estimée avec la médiane de toutes les données.
L' écart est estimé avec la différence entre les médianes de la "moitié supérieure" - toutes les données égales ou supérieures à la médiane - et la "moitié inférieure" - toutes les données égales ou inférieures à la médiane. Ces deux médianes sont appelées "charnières" supérieures et inférieures ou "quarts". Ils tendent aujourd'hui à être remplacés par des choses appelées quartiles (qui n'ont hélas pas de définition universelle).
Des clôtures invisibles pour le criblage des valeurs aberrantes sont érigées 1,5 et 3 fois la propagation au-delà des charnières (loin de la valeur centrale).
- "La valeur à chaque extrémité la plus proche, mais toujours à l'intérieur, de la clôture intérieure est" adjacente "."
- Les valeurs au-delà de la première clôture sont appelées «valeurs aberrantes».
- Les valeurs au-delà de la deuxième clôture sont «très éloignées».
(Ceux qui sont assez vieux pour se souvenir de l' argot hippie des années 60 comprendront la blague.)
Étant donné que l'écart est une différence de valeurs de données, ces clôtures ont les mêmes unités de mesure que les données d'origine: c'est le sens de la «distance» dans la question.
Concernant les valeurs des données à identifier, Tukey a écrit
Nous pouvons au moins identifier les valeurs extrêmes, et nous ferions bien d'en identifier quelques autres.
Toute méthode graphique pour afficher la médiane, les charnières et les valeurs identifiées mérite sans doute d'être appelée un "boxplot" (à l'origine, "box-and-whisker plot"). Les clôtures ne sont généralement pas représentées. La conception de Tukey se compose d'un rectangle décrivant les charnières avec une "taille" à la médiane. Des "moustaches" en forme de ligne discrètes s'étendent vers l'extérieur depuis les charnières jusqu'aux valeurs les plus identifiées (à la fois au-dessus et au-dessous de la boîte). Habituellement, ces valeurs les plus identifiées sont les valeurs adjacentes définies ci-dessus.
Par conséquent, l'apparence par défaut d'une boîte à moustaches est d'étendre les moustaches aux valeurs de données non périphériques les plus extrêmes et d'identifier (via des étiquettes de texte) les données comprenant les extrémités des moustaches et toutes les valeurs aberrantes. Par exemple, le volcan Tupungatito est la valeur adjacente élevée pour les données de hauteurs de volcan représentées à droite de la figure: la moustache s'arrête là. Tupungatito et tous les volcans plus hauts sont identifiés séparément.
Pour que cela affiche fidèlement les données, la distance dans le graphique est proportionnelle aux différences de valeurs des données. (Tout écart par rapport à la proportionnalité directe introduirait un «facteur de mensonge» dans la terminologie de Tufte (1983).)
Ces deux boîtes à moustaches du livre de Tukey EDA (p. 41) illustrent les composants. Il est à noter qu'il a identifié des valeurs non périphériques aux extrémités haute et basse du jeu de données des États à gauche et une valeur non périphérique basse des hauteurs du volcan à droite. Cela illustre l'interaction des règles et du jugement qui imprègne le livre.
(Vous pouvez dire que ces données identifiées ne sont pas éloignées, car vous pouvez estimer l'emplacement des clôtures. Par exemple, les charnières des hauteurs d'état sont proches de 11 000 et 1 000, ce qui donne un écart d'environ 10 000. La multiplication par 1,5 et 3 donne les distances de 15 000 et 30 000. Ainsi, la clôture supérieure invisible doit être proche de 11 000 + 15 000 = 26 000 et la clôture inférieure, de 1 000 - 15 000, serait inférieure à zéro. Les clôtures lointaines seraient près de 11 000 + 30 000 = 41 000 et 1 000 - 30 000 = -29 000.)
Références
Tufte, Edward. L'affichage visuel des informations quantitatives. Cheshire Press, 1983.
Tukey, John. Chapitre 2, EDA . Addison-Wesley, 1977.