Il s'agit de deux questions: l'une sur la façon dont la moyenne et la médiane minimisent les fonctions de perte et l'autre sur la sensibilité de ces estimations aux données. Les deux questions sont liées, comme nous le verrons.
Minimiser les pertes
Un résumé (ou estimateur) du centre d'un lot de nombres peut être créé en laissant la valeur de résumé changer et en imaginant que chaque numéro du lot exerce une force de restauration sur cette valeur. Lorsque la force ne repousse jamais la valeur d'un nombre, alors sans doute tout point où l'équilibre des forces est un "centre" du lot.
Perte quadratique ( )L2
Par exemple, si nous devions attacher un ressort classique (suivant la loi de Hooke ) entre le résumé et chaque nombre, la force serait proportionnelle à la distance à chaque ressort. Les ressorts tireraient le résumé de cette façon et cela, s'installant finalement à un emplacement stable unique d'énergie minimale.
Je voudrais attirer l'attention sur un petit tour de passe-passe qui vient de se produire: l' énergie est proportionnelle à la somme des distances au carré . La mécanique newtonienne nous apprend que la force est le taux de changement d'énergie. Atteindre un équilibre - minimiser l'énergie - entraîne un équilibrage des forces. Le taux net de variation de l'énergie est nul.
Appelons cela le « résumé » ou le «résumé des pertes au carré».L2
Perte absolue ( )L1
Un autre résumé peut être créé en supposant que les tailles des forces de restauration sont constantes , quelles que soient les distances entre la valeur et les données. Les forces elles-mêmes ne sont cependant pas constantes, car elles doivent toujours tirer la valeur vers chaque point de données. Ainsi, lorsque la valeur est inférieure au point de données, la force est dirigée positivement, mais lorsque la valeur est supérieure au point de données, la force est dirigée négativement. Maintenant, l' énergie est proportionnelle aux distances entre la valeur et les données. Il y aura généralement une région entière dans laquelle l'énergie est constante et la force nette est nulle. Toute valeur dans cette région pourrait être appelée « résumé » ou «résumé des pertes absolues».L1
Ces analogies physiques fournissent une intuition utile sur les deux résumés. Par exemple, qu'advient-il du résumé si nous déplaçons l'un des points de données? Dans le cas avec des ressorts attachés, le déplacement d'un point de données étire ou détend son ressort. Le résultat est un changement en vigueur sur le résumé, il doit donc changer en réponse. Mais dans le cas L 1 , la plupart du temps une modification d'un point de données ne fait rien au résumé, car la force est localement constante. La seule façon dont la force peut changer est que le point de données se déplace dans le résumé.L2L1
(En fait, il devrait être évident que la force nette sur une valeur est donnée par le nombre de points supérieur à elle - qui la tire vers le haut - moins le nombre de points de moins qu'elle - qui la tire vers le bas. Ainsi, le résumé doit se produire à n'importe quel endroit où le nombre de valeurs de données le dépassant est exactement le nombre de valeurs de données inférieur à celui-ci.)L1
Représenter les pertes
Puisque les forces et les énergies s'additionnent, dans les deux cas, nous pouvons décomposer l'énergie nette en contributions individuelles à partir des points de données. En représentant graphiquement l'énergie ou la force en fonction de la valeur récapitulative, cela donne une image détaillée de ce qui se passe. Le résumé sera un endroit où l'énergie (ou "perte" dans le langage statistique) est la plus petite. De manière équivalente, ce sera un endroit où les forces s'équilibreront: le centre des données se produit où le changement net de perte est nul.
Cette figure montre les énergies et les forces pour un petit ensemble de données de six valeurs (marquées par de faibles lignes verticales dans chaque tracé). Les courbes noires en pointillés sont les totaux des courbes colorées montrant les contributions des valeurs individuelles. L'axe des x indique les valeurs possibles du résumé.
La moyenne arithmétique est un point où la perte au carré est minimisée: elle sera située au sommet (en bas) de la parabole noire dans le graphique supérieur gauche. C'est toujours unique. La médiane est un point où la perte absolue est minimisée. Comme indiqué ci-dessus, il doit se produire au milieu des données. Ce n'est pas nécessairement unique. Il sera situé en bas de la courbe noire brisée en haut à droite. (Le bas se compose en fait d'une courte section plate comprise entre et - 0,17 ; toute valeur dans cet intervalle est une médiane.)- 0,23- 0,17
Analyser la sensibilité
Plus tôt, j'ai décrit ce qui peut arriver au résumé lorsqu'un point de données varie. Il est instructif de tracer comment le résumé change en réponse à la modification d'un point de données unique. (Ces graphiques sont essentiellement les fonctions d'influence empiriques . Ils diffèrent de la définition habituelle en ce qu'ils montrent les valeurs réelles des estimations plutôt que la façon dont ces valeurs sont modifiées.) La valeur du résumé est étiquetée par "Estimation" sur le y -axes pour nous rappeler que ce résumé estime où se trouve le milieu de l'ensemble de données. Les nouvelles valeurs (modifiées) de chaque point de données sont affichées sur leurs axes x.
Cette figure présente les résultats de la variation de chacune des valeurs de données du lot (la même que celle analysée dans la première figure). Il y a un tracé pour chaque valeur de données, qui est mis en évidence sur son tracé avec une longue coche noire le long de l'axe inférieur. (Les valeurs de données restantes sont représentées par de courtes graduations grises.) La courbe bleue trace le résumé L 2 - la moyenne arithmétique - et la courbe rouge trace le L 1−1.02,−0.82,−0.23,−0.17,−0.08,0.77L2L1résumé - la médiane. (Étant donné que souvent la médiane est une plage de valeurs, la convention consistant à tracer le milieu de cette plage est suivie ici.)
Remarquer:
La sensibilité de la moyenne est illimitée: ces lignes bleues s'étendent infiniment de haut en bas. La sensibilité de la médiane est limitée: il y a des limites supérieures et inférieures aux courbes rouges.
Cependant, là où la médiane change, elle change beaucoup plus rapidement que la moyenne. La pente de chaque ligne bleue est (il est généralement 1 / n pour un ensemble de données à n valeurs), tandis que les pentes des parties inclinées des lignes rouges sont une / deux .1/61/nn1/2
La moyenne est sensible à chaque point de données et cette sensibilité n'a pas de limites (comme l'indiquent les pentes non nulles de toutes les lignes colorées dans le graphique en bas à gauche du premier chiffre). Bien que la médiane soit sensible à chaque point de données, la sensibilité est limitée (c'est pourquoi les courbes colorées dans le tracé en bas à droite du premier chiffre sont situées dans une étroite plage verticale autour de zéro). Ce ne sont bien sûr que des réitérations visuelles de la loi de force (perte) de base: quadratique pour la moyenne, linéaire pour la médiane.
L'intervalle sur lequel la médiane peut être amenée à changer peut varier selon les points de données. Il est toujours délimité par deux des valeurs proches du milieu parmi les données qui ne varient pas . (Ces limites sont marquées par de faibles lignes verticales en pointillés.)
Étant donné que le taux de variation de la médiane est toujours , le montant par lequel il peut varier est donc déterminée par la longueur de cet écart entre les valeurs quasi-milieu de l'ensemble de données.1/2
Bien que seul le premier point soit couramment noté, les quatre points sont importants. En particulier,
Il est définitivement faux que la "médiane ne dépend pas de chaque valeur". Cette figure fournit un contre-exemple.
Néanmoins, la médiane ne dépend pas "matériellement" de chaque valeur dans le sens où bien que la modification des valeurs individuelles puisse changer la médiane, l' ampleur du changement est limitée par les écarts entre les valeurs quasi-moyennes de l'ensemble de données. En particulier, le montant du changement est limité . On dit que la médiane est un résumé "résistant".
Bien que la moyenne ne soit pas résistante et change chaque fois que la valeur d' une donnée est modifiée, le taux de variation est relativement faible. Plus l'ensemble de données est grand, plus le taux de variation est faible. De manière équivalente, afin de produire un changement important dans la moyenne d'un grand ensemble de données, au moins une valeur doit subir une variation relativement importante. Cela suggère que la non-résistance de la moyenne ne concerne que (a) les petits ensembles de données ou (b) les ensembles de données où une ou plusieurs données peuvent avoir des valeurs extrêmement éloignées du milieu du lot.
Ces remarques - que j'espère que les chiffres mettent en évidence - révèlent un lien profond entre la fonction de perte et la sensibilité (ou résistance) de l'estimateur. Pour en savoir plus, commencez par l' un des articles de Wikipédia sur les estimateurs M , puis poursuivez ces idées autant que vous le souhaitez.
Code
Ce R
code a produit les figures et peut être facilement modifié pour étudier tout autre ensemble de données de la même manière: il suffit de remplacer le vecteur créé au hasard y
par n'importe quel vecteur de nombres.
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}