Si vous avez deux estimateurs concurrents thetav 1 et θ 2 ou non, M S E ( θ 1 ) < M S E ( θ 2 ) vous indique que θ 1 est le meilleur estimateur dépend entièrement de votre définition "meilleur". Par exemple, si vous comparez estimateurs sans biais et par « mieux » signifie que vous a une variance plus faible alors, oui, cela impliquerait que θ 1 est mieux. M S Eθ^1θ^2
MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEest un critère populaire en raison de sa connexion avec les moindres carrés et la log-vraisemblance gaussienne mais, comme de nombreux critères statistiques, il convient de ne pas utiliser
MSE aveuglément comme mesure de la qualité de l'estimateur sans prêter attention à l'application.
Il existe certaines situations où le choix d'un estimateur pour minimiser peut ne pas être une chose particulièrement judicieuse à faire. Deux scénarios me viennent à l'esprit:MSE
S'il y a de très grandes valeurs aberrantes dans un ensemble de données, elles peuvent affecter considérablement l'ESM et donc l'estimateur qui minimise l'ESM peut être indûment influencé par ces valeurs aberrantes. Dans de telles situations, le fait qu'un estimateur minimise le MSE ne vous dit pas grand-chose, car si vous supprimez les valeurs aberrantes, vous pouvez obtenir une estimation très différente. En ce sens, le MSE n'est pas "robuste" aux valeurs aberrantes. Dans le contexte de la régression, c'est ce qui a motivé le Huber M-Estimator (dont je parle dans cette réponse), qui minimise une fonction de critère différente (c'est-à-dire un mélange entre l'erreur quadratique et l'erreur absolue) lorsqu'il y a des erreurs à longue queue .
Si vous estimez un paramètre borné, la comparaison des peut ne pas être appropriée car elle pénalise la surestimation et la sous-estimation différemment dans ce cas. Par exemple, supposons que vous estimez une variance, σ 2 . Ensuite, si vous sous-estimez consciemment la quantité, votre M S E peut être au plus σ 4 , tandis que la surestimation peut produire un M S E qui dépasse de loin σ 4 , peut-être même d'une quantité illimitée.MSEσ2MSEσ4MSEσ4
Pour clarifier ces inconvénients, je vais donner un exemple concret du moment où, en raison de ces problèmes, le peut ne pas être une mesure appropriée de la qualité de l'estimateur.MSE
Supposons que vous ayez un échantillon partir d'une distribution t avec ν > 2 degrés de liberté et nous essayons d'estimer la variance, qui est ν / ( ν - 2 ) . Considérons deux estimateurs en compétition: thetav 1 : t h e u n b i a s e d d' un m p l e v a r iX1,...,Xntν>2ν/(ν−2)et
θ^1:the unbiased sample variance
clair
MSE( θ 2)=ν2θ^2=0, regardless of the data
et il est un fait que
MSE( θ 1)={ ∞ si ν ≤ 4 ν 2MSE(θ^2)=ν2(ν−2)2MSE(θ^1)={∞ν2(ν−2)2(2n−1+6n(ν−4))if ν≤4if ν>4.
t-distribution .
Ainsi, l'estimateur naïf surpasse en termes deM S E quelle que soit la taille de l'échantillon à chaque fois ν< 4, ce qui est plutôt déconcertant. Il surpasse également lorsque
( 2n - 1+ 6n ( ν- 4 )) >1mais cela ne concerne que les très petits échantillons. Ce qui précède se produit en raison de la nature à longue queue du
t distribution avec de faibles degrés de liberté, ce qui rend
θ^2 sujettes à de très grandes valeurs et
M S E pénalise fortement la surestimation, tandis que
θ^1 n'a pas ce problème.
L'essentiel ici est que M S En'est pas une performance d'estimateur de mesure appropriée dans ce scénario . Cela est clair parce que l'estimateur qui domine en termes deM S Eest ridicule (d'autant plus qu'il n'y a aucune chance qu'elle soit correcte s'il y a une variabilité dans les données observées). Peut-être qu'une approche plus appropriée (comme l'ont souligné Casella et Berger) serait de choisir l'estimateur de variance,θ^ qui minimise la perte de Stein:
S(θ^)=θ^ν/(ν−2)−1−log(θ^ν/(ν−2))
which penalizes underestimation equally to overestimation. It also brings us back to sanity since S(θ^1)=∞ :)