Il est évident que, souvent, on préfère un estimateur non biaisé. Mais existe-t-il des circonstances dans lesquelles nous pourrions préférer un estimateur biaisé à un estimateur non biaisé?
Il est évident que, souvent, on préfère un estimateur non biaisé. Mais existe-t-il des circonstances dans lesquelles nous pourrions préférer un estimateur biaisé à un estimateur non biaisé?
Réponses:
Oui. Souvent, nous souhaitons minimiser l’erreur quadratique moyenne, qui peut être décomposée en variance + biais carré . C'est une idée extrêmement fondamentale en apprentissage automatique et en statistiques en général. Nous constatons fréquemment qu’une faible augmentation du biais peut entraîner une réduction de la variance suffisamment importante pour que la MSE globale diminue.
Un exemple standard est la régression de crête. Nous avons β R = ( X T X + λ I ) - 1 X T Y qui est sollicité; mais si X est mal conditionnée puis V un r ( β ) α ( X T X ) - 1 peut être énorme que V a r ( β R ) peut être beaucoup plus modeste.
Un autre exemple est le classifieur kNN . Pensez à : on attribue un nouveau point à son plus proche voisin. Si nous avons une tonne de données et seulement quelques variables, nous pouvons probablement récupérer la véritable limite de décision et notre classificateur est non biaisé; mais dans tous les cas réalistes, il est probable que k = 1 sera beaucoup trop souple (c'est-à-dire qu'il aura trop de variance) et que le faible biais n'en vaut pas la peine (c'est-à-dire que la MSE est plus grande que les classificateurs plus biaisés mais moins variables).
Enfin, voici une photo. Supposons que ce soient les distributions d'échantillonnage de deux estimateurs et que nous essayons d'estimer 0. Le plus plat est non biaisé, mais aussi beaucoup plus variable. Globalement, je pense que je préférerais utiliser le biais, parce que même si en moyenne nous ne serons pas corrects, pour chaque instance de cet estimateur, nous serons plus proches.
Je mentionne les problèmes numériques qui se produisent lorsque est mal conditionné et comment la régression de crête aide. Voici un exemple.
Je fais une matrice qui est 4 × 3 et la troisième colonne est presque tout à 0, ce qui signifie que ce n'est presque pas le rang complet, ce qui signifie que X T X est vraiment proche d'être singulier.
x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank
> x
[,1] [,2] [,3]
[1,] 0 2 0.000624715
[2,] 1 3 0.000248889
[3,] 2 4 0.000226021
[4,] 3 5 0.000795289
(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)
[,1] [,2] [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,] 0.0030868 0.00687663 1.13579e-06
eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much
[1] 6.68024e+01 1.19756e+00 2.26161e-07
solve(xtx) ## huge values
[,1] [,2] [,3]
[1,] 0.776238 -0.458945 669.057
[2,] -0.458945 0.352219 -885.211
[3,] 669.057303 -885.210847 4421628.936
solve(xtx + .5 * diag(3)) ## very reasonable values
[,1] [,2] [,3]
[1,] 0.477024087 -0.227571147 0.000184889
[2,] -0.227571147 0.126914719 -0.000340557
[3,] 0.000184889 -0.000340557 1.999998999
Mise à jour 2
Comme promis, voici un exemple plus complet.
Tout d’abord, rappelez-vous le but de tout ceci: nous voulons un bon estimateur. Il y a plusieurs façons de définir le terme «bien». Supposons que nous avons et nous voulons estimer μ .
Disons que nous décidons qu'un "bon" estimateur est un estimateur non biaisé. Ce n'est pas optimale car, alors il est vrai que l'estimateur est sans biais pour μ , nous avons n points de données il semble stupide d'ignorer presque tous . Pour rendre cette idée plus formelle, nous pensons que nous devrions pouvoir obtenir un estimateur qui varie moins de μ pour un échantillon donné que T 1 . Cela signifie que nous voulons un estimateur avec une variance plus petite.
Alors peut-être que maintenant nous disons que nous ne voulons toujours que des estimateurs non biaisés, mais parmi tous les estimateurs non biaisés, nous choisirons celui qui présente la plus petite variance. Cela nous conduit au concept de l’ estimateur non biaisé de variance uniformément minimum (UMVUE), objet de nombreuses études en statistique classique. SI nous ne voulons que des estimateurs non biaisés, choisir celui qui présente la plus petite variance est une bonne idée. Dans notre exemple, considérons par rapport à T 2 ( X 1 , . . . , X n ) = X 1 + X 2 etTn(X1,...,Xn)=X1+. . . +Xn . Encore une fois, tous les trois sont non biaisés mais ils ont des variances différentes:Var(T1)=σ2,Var(T2)=σ2 , etVar(Tn)=σ2 . Pourn>2Tna la plus petite variance de ceuxci, et il est impartial, c'est donc notre estimateur choisi.
. Thus we may decide that rather than UMVUEs we want an estimator that minimizes MSE.
Suppose that is unbiased. Then , so if we are only considering unbiased estimators then minimizing MSE is the same as choosing the UMVUE. But, as I showed above, there are cases where we can get an even smaller MSE by considering non-zero biases.
In summary, we want to minimize . We could require and then pick the best among those that do that, or we could allow both to vary. Allowing both to vary will likely give us a better MSE, since it includes the unbiased cases. This idea is the variance-bias trade-off that I mentioned earlier in the answer.
Now here are some pictures of this trade-off. We're trying to estimate and we've got five models, through . is unbiased and the bias gets more and more severe until . has the largest variance and the variance gets smaller and smaller until . We can visualize the MSE as the square of the distance of the distribution's center from plus the square of the distance to the first inflection point (that's a way to see the SD for normal densities, which these are). We can see that for (the black curve) the variance is so large that being unbiased doesn't help: there's still a massive MSE. Conversely, for the variance is way smaller but now the bias is big enough that the estimator is suffering. But somewhere in the middle there is a happy medium, and that's . It has reduced the variability by a lot (compared with ) but has only incurred a small amount of bias, and thus it has the smallest MSE.
You asked for examples of estimators that have this shape: one example is ridge regression, where you can think of each estimator as . You could (perhaps using cross-validation) make a plot of MSE as a function of and then choose the best .
Two reasons come to mind, aside from the MSE explanation above (the commonly accepted answer to the question):
Risk, roughly, is the sense of how much something can explode when certain conditions aren't met. Take superefficient estimators: if lies beyond an -ball of 0, 0 otherwise. You can show that this statistic is more efficient than the UMVUE, since it has the same asymptotic variance as the UMVUE with and infinite efficiency otherwise. This is a stupid statistic, and Hodges threw it out there as a strawman. Turns out that if you take on the boundary of the ball, it becomes an inconsistent test, it never knows what's going on and the risk explodes.
In the minimax world, we try to minimize risk. It can give us biased estimators, but we don't care, they still work because there are fewer ways to break the system. Suppose, for instance, I were interested in inference on a distribution, and once in a while the distribution threw curve balls. A trimmed mean estimate
Efficient testing means you don't estimate the thing you're interested in, but an approximation thereof, because this provides a more powerful test. The best example I can think of here is logistic regression. People always confuse logistic regression with relative risk regression. For instance an odds ratio of 1.6 for cancer comparing smokers to non-smokers does NOT mean that "smokers had a 1.6 greater risk of cancer". BZZT wrong. That's a risk ratio. They technically had a 1.6 fold odds of the outcome (reminder: odds = probability / (1-probability)). However, for rare events, the odds ratio approximates the risk ratio. There is relative risk regression, but it has a lot of issues with converging and is not as powerful as logistic regression. So we report the OR as a biased estimate of the RR (for rare events), and calculate more efficient CIs and p-values.