L'erreur quadratique moyenne est-elle utilisée pour évaluer la supériorité relative d'un estimateur sur un autre?

13

Supposons que nous ayons deux estimateurs et pour un paramètre . Pour déterminer quel estimateur est "meilleur", examinons-nous le MSE (erreur quadratique moyenne)? En d'autres termes, nous regardons où est le biais de l'estimateur et est la variance de l'estimateur? Celui qui a le plus grand MSE est un pire estimateur? $\alpha_1$ $\alpha_2$ $x$

M S E = β^{2} + σ^{2}

$MSE = \beta^2+ \sigma^2$

β

$\beta$

σ^{2}

$\sigma^2$

estimation mse

— Damien
source

10

Si vous avez deux estimateurs concurrents et ou non, vous indique que est le meilleur estimateur dépend entièrement de votre définition "meilleur". Par exemple, si vous comparez estimateurs sans biais et par « mieux » signifie que vous a une variance plus faible alors, oui, cela impliquerait que est mieux. $\hat \theta_1$ $\hat \theta_2$

M S E ({\hat{θ}}_{1}) < M S E ({\hat{θ}}_{2})

${\rm MSE}(\hat \theta_1) < {\rm MSE}(\hat \theta_2)$

{\hat{θ}}_{1}

$\hat \theta_1$

{\hat{θ}}_{1}

$\hat \theta_1$

M S E

$\rm MSE$ est un critère populaire en raison de sa connexion avec les moindres carrés et la log-vraisemblance gaussienne mais, comme de nombreux critères statistiques, il convient de ne pas utiliser

M S E

$\rm MSE$ aveuglément comme mesure de la qualité de l'estimateur sans prêter attention à l'application.

Il existe certaines situations où le choix d'un estimateur pour minimiser peut ne pas être une chose particulièrement judicieuse à faire. Deux scénarios me viennent à l'esprit: ${\rm MSE}$

S'il y a de très grandes valeurs aberrantes dans un ensemble de données, elles peuvent affecter considérablement l'ESM et donc l'estimateur qui minimise l'ESM peut être indûment influencé par ces valeurs aberrantes. Dans de telles situations, le fait qu'un estimateur minimise le MSE ne vous dit pas grand-chose, car si vous supprimez les valeurs aberrantes, vous pouvez obtenir une estimation très différente. En ce sens, le MSE n'est pas "robuste" aux valeurs aberrantes. Dans le contexte de la régression, c'est ce qui a motivé le Huber M-Estimator (dont je parle dans cette réponse), qui minimise une fonction de critère différente (c'est-à-dire un mélange entre l'erreur quadratique et l'erreur absolue) lorsqu'il y a des erreurs à longue queue .
Si vous estimez un paramètre borné, la comparaison des peut ne pas être appropriée car elle pénalise la surestimation et la sous-estimation différemment dans ce cas. Par exemple, supposons que vous estimez une variance, . Ensuite, si vous sous-estimez consciemment la quantité, votre peut être au plus , tandis que la surestimation peut produire un qui dépasse de loin , peut-être même d'une quantité illimitée. $\rm MSE$ $\sigma^2$ $\rm MSE$ $\sigma^4$ $\rm MSE$ $\sigma^4$

Pour clarifier ces inconvénients, je vais donner un exemple concret du moment où, en raison de ces problèmes, le peut ne pas être une mesure appropriée de la qualité de l'estimateur. $\rm MSE$

Supposons que vous ayez un échantillon partir d'une distribution avec degrés de liberté et nous essayons d'estimer la variance, qui est . Considérons deux estimateurs en $X_1, ..., X_n$ $t$ $\nu>2$ $\nu/(\nu-2)$

{\hat{θ}}_{1} : t h e u n b i a s e d s a m p l e v a r i a n c e

$\hat \theta_{1}: {\rm the \ unbiased \ sample \ variance}$

clair

{\hat{θ}}_{2} = 0, r e g a r d l e s s o f t h e d a t a

$\hat \theta_{2} = 0,{\rm \ regardless \ of \ the \ data}$

et il est un fait que

M S E ({\hat{θ}}_{2}) = \frac{ν^{2}}{(ν - 2)^{2}}

$\rm MSE(\hat \theta_{2}) = \frac{\nu^2}{(\nu-2)^2}$

M S E ({\hat{θ}}_{1}) = {\begin{cases} \infty & if ν \leq 4 \\ \frac{ν^{2}}{(ν - 2)^{2}} (\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) & if ν > 4 . \end{cases}

${\rm MSE}(\hat \theta_{1}) = \begin{cases} \infty &\mbox{if } \nu \leq 4 \\ \frac{\nu^2}{(\nu-2)^2} \left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) & \mbox{if } \nu>4 . \end{cases}$

t

$t$ -distribution . Ainsi, l'estimateur naïf surpasse en termes de $\rm MSE$ quelle que soit la taille de l'échantillon à chaque fois $\nu < 4$ , ce qui est plutôt déconcertant. Il surpasse également lorsque

(\frac{2}{n - 1} + \frac{6}{n (ν - 4)}) > 1

$\left( \frac{2}{n-1}+\frac{6}{n(\nu-4)} \right) > 1$ mais cela ne concerne que les très petits échantillons. Ce qui précède se produit en raison de la nature à longue queue du

t

$t$ distribution avec de faibles degrés de liberté, ce qui rend

{\hat{θ}}_{2}

$\hat \theta_{2}$ sujettes à de très grandes valeurs et

M S E

$\rm MSE$ pénalise fortement la surestimation, tandis que

{\hat{θ}}_{1}

$\hat \theta_1$ n'a pas ce problème.

L'essentiel ici est que $\rm MSE$ n'est pas une performance d'estimateur de mesure appropriée dans ce scénario . Cela est clair parce que l'estimateur qui domine en termes de $\rm MSE$ est ridicule (d'autant plus qu'il n'y a aucune chance qu'elle soit correcte s'il y a une variabilité dans les données observées). Peut-être qu'une approche plus appropriée (comme l'ont souligné Casella et Berger) serait de choisir l'estimateur de variance, $\hat \theta$ qui minimise la perte de Stein:

S (\hat{θ}) = \frac{\hat{θ}}{ν / (ν - 2)} - 1 - \log (\frac{\hat{θ}}{ν / (ν - 2)})

$S(\hat \theta) = \frac{ \hat \theta}{\nu/(\nu-2)} - 1 - \log \left( \frac{ \hat \theta}{\nu/(\nu-2)} \right)$

which penalizes underestimation equally to overestimation. It also brings us back to sanity since $S(\hat \theta_1)=\infty$ :)

— Macro
source

(+1) Nice discussion. To be fair, it should probably be pointed out that similar arguments can be made for and against other criteria (other loss functions) as well.

— MånsT

2

Ordinarily, one evaluates estimators by looking at their risk functions, which plot the expected loss versus the parameters. Here, by fixing the parameters, you may have produced a misleading analysis. After all, it's always the case that a stupid (constant, data-ignorant) estimator can produce very low expected loss: just set it equal to the correct parameter! This leaves me wondering what the simulation has really shown here.

— whuber

@whuber, I've modified this answer to give the example analytically, which makes it more clear perhaps. I've also offered an alternative loss function that may be more appropriate.

— Macro

+1 Much better and very interesting! I think the "disconcerting" aspect may be in the eye of the beholder. To anyone inclined to stick some Bayes prior on

ν

$\nu$ , this result ought to be sobering. Also, to some of us the choice of loss is primary and should supersede most other considerations: your client's values and objectives determine the loss and that helps you choose a good estimation procedure. Favoring an estimation procedure and then proposing a loss to make that procedure work is a useful exercise but surely cannot be taken as a paradigm of how one solves statistical problems!

— whuber

2

MSE corresponds to the risk (expected loss) for the squared error loss function $L(\alpha_i) = (\alpha_i - \alpha)^2$ . The squared error loss function is very popular but only one choice of many. The procedure you describe is correct under squared error loss; the question is whether that's appropriate in your problem or not.

— JMS
source

2

Because the function $f(x) = x^2$ is differentiable, it makes finding the minimum MSE easier from both a theoretical and numerical standpoint. For example, in ordinary least squares you can solve explicity for the fitted slope and intercept. From a numerical standpoint, you have more efficient solvers when you have a derivative as well.

Mean square error typically overweights outliers in my opinion. This is why it is often more robust to use the mean absolute error, i.e. use $f(x) = |x|$ as your error function. However, since it is non-differentiable it makes the solutions more difficult to work with.

MSE is probably a good choice if the error terms are normally distributed. If they have fatter tails, a more robust choice such as absolute value is preferable.

— aprokopiw
source

0

Dans Case & Berger Statistical Inference 2nd edition, la page 332 déclare que le MSE pénalise également la surestimation et la sous-estimation, ce qui est bien dans le cas de la localisation. Dans le cas de l'échelle, cependant, 0 est une borne inférieure naturelle, donc le problème d'estimation n'est pas symétrique. Dans ce cas, l'utilisation de MSE tend à pardonner la sous-estimation.

Vous voudrez peut-être vérifier quel estimateur satisfait les propriétés UMVUE, ce qui signifie utiliser la borne inférieure de Cramer-Rao. Page 341.

— Tu.2
source