Comment puis-je interpréter un graphique du pourcentage de rognage par rapport à la moyenne rognée?

12

Pour une partie d'une question de devoirs, on m'a demandé de calculer la moyenne ajustée pour un ensemble de données en supprimant l'observation la plus petite et la plus grande, et d'interpréter le résultat. La moyenne ajustée était inférieure à la moyenne non ajustée.

Mon interprétation était que c'était parce que la distribution sous-jacente était positivement asymétrique, donc la queue gauche est plus dense que la queue droite. En raison de cette asymétrie, la suppression d'une donnée élevée entraîne la moyenne plus vers le bas que la suppression d'une valeur basse la pousse vers le haut, car, de manière informelle, il y a plus de données faibles "attendant de prendre sa place". (Est-ce raisonnable?)

Ensuite, j'ai commencé à me demander comment le pourcentage d'ajustement affecte cela, j'ai donc calculé la moyenne ajustée pour divers . J'ai une forme parabolique intéressante: $\bar x_{\operatorname{tr}(k)}$ $k = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n$ Graphique du pourcentage de rognage par rapport à la moyenne rognée; forme une courbe concave qui semble à peu près parabolique

Je ne sais pas trop comment interpréter cela. Intuitivement, il semble que la pente du graphique devrait être (proportionnelle à) l'asymétrie négative de la partie de la distribution à l'intérieur de points de données de la médiane. (Cette hypothèse vérifie mes données, mais je n'ai que , donc je ne suis pas très confiant.) $k$ $n = 11$

Ce type de graphique a-t-il un nom ou est-il couramment utilisé? Quelles informations pouvons-nous tirer de ce graphique? Y a-t-il une interprétation standard?

Pour référence, les données sont: 4, 5, 5, 6, 11, 17, 18, 23, 33, 35, 80.

— wchargin
source

11

@gung et @kjetil b. halvorsen ont tous les deux raison.

J'ai trouvé de tels graphiques dans

Rosenberger, JL et M. Gasko. 1983. Comparaison des estimateurs d'emplacement: moyennes ajustées, médianes et triméennes. Dans Understanding Robust and Exploratory Data Analysis , Eds. DC Hoaglin, F. Mosteller et JW Tukey, 297–338. New York: Wiley.

et

Davison, AC et DV Hinkley. 1997. Méthodes Bootstrap et leur application. Cambridge: Cambridge University Press.

et donner d'autres exemples dans

Cox, NJ 2013. Tailler au goût. Journal Stata 13: 640–666. http://www.stata-journal.com/article.html?article=st0313 [accès gratuit au pdf]

qui a discuté de nombreux aspects des moyens coupés.

Pour autant que je sache, le graphique n'a pas de nom distinct. Un nom distinct pour chaque intrigue possible serait en fait un petit cauchemar: la terminologie graphique est déjà un horrible gâchis. Je l'appellerais simplement un graphique de la moyenne ajustée par rapport au nombre, à la fraction ou au pourcentage ajusté (inversant ainsi le libellé du PO).

Pour d'autres petits commentaires sur "versus", voir ma réponse dans Heteroscedasticity in Regression

EDIT: Pour en savoir plus sur versus (mavens de langue uniquement), voir ici .

— Nick Cox
source

10

Je n'ai jamais entendu parler de ce graphique, mais je pense qu'il est assez soigné; quelqu'un l'a probablement déjà fait auparavant. Ce que vous pouvez en faire, c'est voir comment la moyenne se déplace et / ou se stabilise si vous considérez que des proportions différentes de vos données sont aberrantes. La raison pour laquelle vous obtenez la forme parabolique est que votre distribution (initiale) est asymétrique dans son ensemble, mais le degré d'asymétrie n'est pas le même au centre de la distribution. À titre de comparaison, considérons les graphiques de densité du noyau ci-dessous.

entrez la description de l'image ici

Sur la gauche se trouvent vos données car elles sont coupées une par une. À droite se trouvent ces données y = c(5.016528, 7.601235, 10.188326, 13.000723, 16.204741, 20.000000, 24.684133, 30.767520, 39.260622, 52.623029, 79.736416):, qui sont des quantiles d'une distribution log-normale standard tirés de percentiles également espacés et multipliés par 20 pour rendre la plage de valeurs similaire.

Vos données commencent asymétriquement à droite, mais à la ligne 5, elles sont asymétriques à gauche, donc le découpage de plus de données commence à faire remonter la moyenne. Les données de droite conservent une asymétrie similaire à mesure que le rognage se poursuit.

Vous trouverez ci-dessous votre tracé pour les données lognormales et les données uniformes ( z = 1:11, pas de biais - parfaitement symétrique).

entrez la description de l'image ici

— gung - Réintégrer Monica
source

4

Je ne pense pas que ce type de graphique ait un nom, mais ce que vous faites est raisonnable et votre interprétation, je pense, valide. Je pense que ce que vous faites est lié à la fonction d'influence de Hampel, voir https://en.wikipedia.org/wiki/Robust_statistics#Empirical_influence_function, en particulier la section sur la fonction d'influence empirique. Et votre tracé pourrait certainement être lié à une certaine asymétrie des données, car si vos données étaient parfaitement symétriques, le tracé serait plat. Vous devriez enquêter là-dessus!

            EDIT

Une extension de ce graphique consiste à montrer également l'effet de l'utilisation de découpes différentes à gauche et à droite. Comme cela n'est pas implémenté dans la meanfonction habituelle avec argument trimen R, j'ai écrit ma propre fonction moyenne tronquée. Pour obtenir un tracé plus fluide, j'utilise une interpolation linéaire lorsque la fraction d'ajustement implique la suppression d'un nombre non entier de points. Cela donne la fonction:

my.trmean  <-  function(x, trim)  {
    x  <-  sort(x)
    if (length(trim)==1) {
        tr1  <-  tr2  <-  trim }  else {
                                   tr1  <-  trim[1]
                                   tr2  <-  trim[2] }
    stopifnot((0 <= tr1)&& (tr1 <= 0.5)); stopifnot((0 <= tr2)&&(tr2 <= 0.5))
    n  <-  length(x)
    if ((tr1>=0.5-1/n)&&(tr2>=0.5-1/n)) return( median(x) )

    k1  <-  floor(n*tr1) ; k2  <-  floor(n*tr2)
    a1  <-  n*tr1-k1     ; a2  <-  n*tr2-k2
    crange  <-  if ( (k1+2) <= (n-k2-1) ) ((k1+2):(n-k2-1)) else NULL
    trmean  <-  sum(c((1-a1)*x[k1+1], x[crange], (1-a2)*x[n-k2]))/(length(crange)+2-(a1+a2)  )
    trmean     
}

Ensuite, je simule quelques données et montre le résultat sous forme de tracé de contour:

tr1  <-  seq(0, 0.5, length.out=25)
tr2  <-   seq(0, 0.5, length.out=25)

x  <-  rgamma(10000, 1.5)
vals  <-  outer(tr1, tr2, FUN=Vectorize(function(t1, t2) my.trmean(x, c(t1, t2))))

image(tr1, tr2, vals, xlab="left trimming", ylab="right trimming", main="Effect of trimming")
contour(tr1, tr2, vals, nlevels=20, add=TRUE)

donnant ce résultat:

— kjetil b halvorsen
source