Existe-t-il une variante de boîte à moustaches pour les données distribuées de Poisson?

J'aimerais savoir s'il existe une variante de boîte à moustaches adaptée aux données distribuées de Poisson (ou éventuellement à d'autres distributions)?

Avec une distribution gaussienne, des moustaches placées à L = Q1 - 1,5 IQR et U = Q3 + 1,5 IQR, le diagramme à moustaches possède la propriété qu'il y aura à peu près autant de points aberrants bas (points en dessous de L) que de points aberrants (points supérieurs à U ).

Cependant, si les données sont distribuées de Poisson, cela ne tient plus à cause de l’asymétrie positive que nous obtenons Pr (X <L) <Pr (X> U) . Existe-t-il un autre moyen de placer les moustaches de sorte qu’elles «correspondent» à une distribution de Poisson?

data-visualization poisson-distribution boxplot

— caas
source

Essayez de vous connecter d'abord? Vous pouvez également dire à quoi vous voulez que votre boîte à moustaches soit "bien adaptée".

— conjugateprior

Une telle modification pose un problème: les gens sont habitués à la définition standard de la boîte à moustaches et l’accepteront probablement lorsque l’on examinera la parcelle, que cela vous plaise ou non. Ainsi, cela peut apporter plus de confusion que de gain.

@mbq:> le problème avec les boîtes à moustaches, c'est qu'elles combinent deux fonctionnalités en un seul outil; une fonction de visualisation des données (la boîte) et une fonction de détection des valeurs aberrantes (les moustaches). Ce que vous dites est absolument vrai de l'ancien, mais ce dernier pourrait utiliser un ajustement asymétrique.

— user603

@conjugateprior Voici un exemple de Poisson: 0, 0, 1, 0, 1, 2, 0, 0, 1, 0, 0 .... vous rencontrez un problème avec la prise de journaux?

— Glen_b -Reinstate Monica

@Glen_b Cela doit être la raison pour laquelle c'est un commentaire et non une réponse. Et pourquoi il a deux parties.

— conjugateprior

Réponses:

Les boîtes à moustaches n'ont pas été conçues pour garantir une faible probabilité de dépasser les extrémités des moustaches: elles sont destinées à, et sont généralement utilisées, comme simples caractérisations graphiques de la majeure partie d'un jeu de données. En tant que telles, elles sont correctes même lorsque les distributions de données sont très asymétriques (bien qu’elles ne révèlent peut-être pas autant d’informations qu’elles ne le font à propos de distributions approximatives non modifiées).

Lorsque les boîtes à moustaches deviennent asymétriques, comme c'est le cas avec une distribution de Poisson, l'étape suivante consiste à réexprimer la variable sous-jacente (avec une transformation monotone croissante) et à redessiner les boîtes à moustaches. Comme la variance d'une distribution de Poisson est proportionnelle à sa moyenne, la racine carrée est une bonne transformation à utiliser.

Chaque boîte à moustaches représente 50 tirages d'une distribution de Poisson d'une intensité donnée (de 1 à 10, avec deux essais pour chaque intensité). Notez que l'asymétrie a tendance à être faible.

boîtes à moustaches côte à côte

Les mêmes données sur une échelle de racine carrée ont tendance à avoir des boîtes à moustaches légèrement plus symétriques et (sauf pour l'intensité la plus faible), des IQR approximativement égaux, quelle que soit l'intensité).

boîtes à moustaches de données transformées

En résumé, ne changez pas l'algorithme de boîte à moustaches: ré-exprimez les données à la place.

Soit dit en passant, les chances pertinentes à calcul sont celles - ci: quelle est la probabilité qu'une variate normale indépendante dépassera la barrière supérieure (inférieure) ( ) estimée à partir indépendant tire de la même distribution? $X$ $U$ $L$ $n$ Cela explique le fait que les clôtures d'une boîte à moustaches ne sont pas calculées à partir de la distribution sous-jacente mais sont estimées à partir des données. Dans la plupart des cas, les chances sont beaucoup plus grandes que 1%! Par exemple, voici (sur 10 000 essais de Monte-Carlo) un histogramme du log (base 10) des chances pour le cas : $n=9$

histogramme des chances

(La distribution normale étant symétrique, cet histogramme s'applique aux deux clôtures.) Le logarithme de 1% / 2 est d'environ -2,3. De toute évidence, la probabilité est la plupart du temps supérieure à celle-ci. Environ 16% du temps, il dépasse 10%!

$n$

— whuber
source

+1, je n'avais jamais vu ce fil auparavant. J'ai souligné (je crois) le même point qui est traité ici après la règle horizontale d'une manière différente dans ce billet: faut-il supprimer les cas marqués comme étant des valeurs aberrantes par un logiciel statistique ?

— gung - Réintégrer Monica

Oui, c'est le même point @ gung - et vous avez posté une réponse intéressante ici.

— whuber

À ma connaissance, il existe une généralisation de la boîte à moustaches standard dans laquelle les longueurs des moustaches sont ajustées pour tenir compte de données asymétriques. Les détails sont mieux expliqués dans un livre blanc très clair et concis (Vandervieren, E., Hubert, M. (2004) "Une boîte à moustaches ajustée pour les distributions asymétriques", voir ici ).

Il existe une implémentation de ( ) ainsi que matlab (dans une bibliothèque appelée ). $\verb+R+$ $\verb+robustbase::adjbox()+$ $\verb+libra+$

Je trouve personnellement que c'est une meilleure alternative à la transformation de données (bien qu'elle soit également basée sur une règle ad-hoc, voir le livre blanc).

Incidemment, je trouve que j'ai quelque chose à ajouter à l'exemple de Whuber ici. Dans la mesure où nous discutons du comportement des moustaches, nous devrions également considérer ce qui se passe lorsque l'on considère des données contaminées:

library(robustbase)
A0 <- rnorm(100)
A1 <- runif(20, -4.1, -4)
A2 <- runif(20,  4,    4.1)
B1 <- exp(c(A0, A1[1:10], A2[1:10]))
boxplot(sqrt(B1), col="red", main="un-adjusted boxplot of square root of data")
adjbox(      B1,  col="red", main="adjusted boxplot of data")

Dans ce modèle de contamination, B1 a essentiellement une distribution log-normale sauf pour 20% des données qui sont à moitié gauche, à moitié à droite (le point de rupture de adjbox est le même que celui des boîtes à moustaches ordinaires 25% des données peuvent être mauvaises).

Les graphiques décrivent les boîtes à moustaches classiques des données transformées (en utilisant la transformation de la racine carrée)

boîte à moustache classique sur la transformation de la racine carrée des données

et la boîte à moustaches ajustée des données non transformées.

boîte à moustaches ajustée de données non transformées

Comparée aux boîtes à moustaches ajustées, la première option masque les valeurs aberrantes réelles et qualifie les bonnes données de valeurs aberrantes. En général, il sera bon de dissimuler toute preuve d'asymétrie dans les données en classant les points incriminés comme des points aberrants.

Dans cet exemple, l'approche consistant à utiliser la boîte à moustaches standard à la racine carrée des données trouve 13 valeurs aberrantes (toutes à droite), tandis que la boîte à moustiquaire ajustée trouve 10 valeurs éloignées à droite et 14 à gauche.

EDIT: box complots ajustés en un mot.

Dans les boîtes à moustaches classiques, les moustaches sont placées à:

$Q_1$ -1.5 * IQR et + 1.5 * IQR $Q_3$

où IQR est la plage inter-quantile, est le 25e centile et est le 75e centile des données. La règle de base est de considérer tout ce qui se trouve en dehors de la clôture comme des données douteuses (la clôture correspond à l'intervalle entre les deux moustaches). $Q_1$ $Q_3$

Cette règle empirique est ad-hoc: la justification est que si la partie non contaminée des données est approximativement gaussienne, moins de 1% des bonnes données seraient classées comme mauvaises en utilisant cette règle.

Comme le fait remarquer le PO, une des faiblesses de cette règle de clôture est que la longueur des deux moustaches est identique, ce qui signifie que la règle de clôture n'a de sens que si la partie non contaminée des données a une distribution symétrique.

Une approche populaire consiste à préserver la règle de clôture et à adapter les données. L'idée est de transformer les données en utilisant des transformations monotones correctrices asymétriques (transformations de racine carrée ou de log ou plus généralement de transformées box-cox). C'est une approche quelque peu confuse: elle repose sur une logique circulaire (la transformation doit être choisie de manière à corriger l'asymétrie de la partie non contaminée des données, qui est à ce stade inobservable) et tend à rendre les données plus difficiles à interpréter visuellement. En tout état de cause, cela reste une procédure étrange selon laquelle on modifie les données pour conserver ce qui est après tout une règle ad hoc.

Une alternative consiste à laisser les données intactes et à modifier la règle de la moustache. La boîte à moustaches ajustée permet à la longueur de chaque moustache de varier en fonction d'un index mesurant l'asymétrie de la partie non contaminée des données:

$Q_1$ - 1.5 * IQR et + 1.5 * IQR $\exp(M,\alpha)$ $Q_3$ $\exp(M,\beta)$

Où est un indice d'asymétrie de la partie non contaminée des données (c'est-à-dire que la médiane est une mesure de localisation pour la partie non contaminée des données ou du MAD une mesure de la dissémination pour la partie non contaminée des données) et sont des nombres choisis tels que, pour les distributions asymétriques non contaminées, la probabilité de mentir à l'extérieur de la clôture soit relativement faible pour une vaste collection de distributions asymétriques (il s'agit de la partie ad-hoc de la règle de clôture). $M$ $\alpha$ $\beta$

Pour les cas où la bonne partie des données est symétrique, et nous revenons aux moustaches classiques. $M\approx 0$

Les auteurs suggèrent d’utiliser le couple med comme estimateur de (voir référence dans le livre blanc) en raison de sa grande efficacité (bien qu’en principe, tout indice de biais important puisse être utilisé). Avec ce choix de , ils ont ensuite calculé les valeurs optimales et empiriquement (en utilisant un grand nombre de distributions asymétriques) comme suit: $M$ $M$ $\alpha$ $\beta$

$Q_1$ - 1.5 * IQR et + 1.5 * IQR, si $\exp(-4M)$ $Q_3$ $\exp(3M)$ $M\geq 0$

$Q_1$ - 1.5 * IQR et + 1.5 * IQR, si $\exp(-3M)$ $Q_3$ $\exp(4M)$ $M<0$

— utilisateur603
source

Je serais intéressé de savoir comment vous trouvez mon exemple "inutile" - le marquer comme tel n’est pas constructif. J'admets que cet exemple est quelque peu décevant en ce sens que la transformation des données ne représente pas une amélioration spectaculaire. C'est la faute des distributions de Poisson: elles ne sont tout simplement pas assez biaisées pour valoir la peine de toute cette analyse!

— whuber

@whuber:> tout d'abord, désolé pour le ton: il s'agit d'un premier brouillon non édité et il a été corrigé (j'écris généralement des paragraphes abrégés destinés à être une note personnelle, puis les relis à plusieurs reprises - celui-ci s'est perdu dans la longue réponse inter-enroulée). Passons maintenant à la critique elle-même: votre exemple décrit le comportement de la solution en utilisant la transformation dans le cas de données non contaminées. À mon humble avis, la règle de la moustache devrait être évaluée, peut-être préliminaire, en fonction d'un modèle de contamination.

— user603

@user Merci pour la clarification. Les critiques ne me dérangent pas, ce qui est intéressant, et j'apprécie les références aux boîtes à moustaches ajustées. (+1)

— whuber

Je suis d'accord avec user603 sur le fait qu'il y a une différence entre inspecter une distribution pure (comme dans les réponses whubers) ou disposer de données provenant d'une distribution plus certaines valeurs aberrantes (décrites ici comme une contamination ). De mon point de vue, dans les paramètres réels, une boîte à moustaches est utilisée pour rechercher les valeurs aberrantes. Ensuite, une analyse des boîtes à moustaches qui omet les valeurs aberrantes passe à côté de l'essentiel. Par conséquent, cette réponse semble mieux servir l'objectif d'utiliser des boîtes à moustaches.

— Henrik

@Henrik Identifier les valeurs aberrantes n'est qu'un des nombreux objectifs des boîtes à moustaches. L'approche de Tukey était d'abord de trouver une ré-expression appropriée des données qui donnaient au centre de leur distribution une symétrie approximative. Cela évite la nécessité de tout ajustement pour l'asymétrie. Cela permet déjà beaucoup de comparaisons entre les boîtes à moustaches, où elles deviennent vraiment utiles. "Ajuster" les moustaches passe complètement à côté de ce problème fondamental. Par conséquent, je me méfierais de l'utilisation de l'ajustement: son besoin est un signe que l'analyse n'est pas bien faite.

— whuber