1) Pourquoi les dommages causés par l'introduction de biais sont-ils moins importants que le gain de variance?
Ce n'est pas nécessaire, c'est généralement le cas . Que le compromis en vaille la peine dépend de la fonction de perte. Mais les choses dont nous nous soucions dans la vie réelle sont souvent similaires à l'erreur quadratique (par exemple, nous nous soucions plus d'une grosse erreur que d'environ deux erreurs de la moitié de la taille).
À titre de contre-exemple - imaginez que pour les admissions à l'université, nous réduisons un peu les scores SAT des gens vers le SAT moyen pour leur démographie (quelle que soit la définition). Si cela est fait correctement, cela réduira la variance et l'erreur quadratique moyenne des estimations de (une sorte de) capacité de la personne tout en introduisant un biais. La plupart des gens estiment à mon humble avis qu'un tel compromis est inacceptable.
2) Pourquoi ça marche toujours?
3) Qu'est-ce qui est si intéressant à propos de 0 (l'origine)? De toute évidence, nous pouvons rétrécir où nous voulons (c.-à-d. L'estimateur Stein), mais cela fonctionnera-t-il aussi bien que l'origine?
Je pense que c'est parce que nous réduisons généralement les coefficients ou les estimations des effets. Il y a des raisons de croire que la plupart des effets ne sont pas importants (voir par exemple la prise d' Andrew Gelman ). Une façon de le dire est qu'un monde où tout influence tout avec un fort effet est un monde violent et imprévisible. Puisque notre monde est suffisamment prévisible pour nous permettre de vivre longtemps et de construire des civilisations semi-stables, il s'ensuit que la plupart des effets ne sont pas importants.
Comme la plupart des effets ne sont pas importants, il est utile de réduire à tort les quelques très gros effets tout en réduisant correctement les charges d'effets négligeables.
Je crois que c'est juste une propriété de notre monde et vous pourriez probablement construire des mondes auto-cohérents où le retrait n'est pas pratique (très probablement en faisant de l'erreur quadratique moyenne une fonction de perte impossible). Ce n'est tout simplement pas le monde dans lequel nous vivons.
D'un autre côté, lorsque nous considérons le retrait comme une distribution antérieure dans l'analyse bayésienne, il y a des cas où le retrait à 0 est activement nuisible dans la pratique.
Un exemple est l'échelle de longueur dans les processus gaussiens (où 0 est problématique) la recommandation dans le manuel de Stan est d'utiliser un a priori qui met un poids négligeable proche de zéro, c'est-à-dire "rétrécissant" efficacement les petites valeurs à partir de zéro. De même, les antérieurs recommandés pour la dispersion dans la distribution binomiale négative se rétractent efficacement à partir de zéro. Enfin et surtout, chaque fois que la distribution normale est paramétrée avec précision (comme dans INLA), il est utile d'utiliser le gamma inverse ou d'autres distributions antérieures qui s'éloignent de zéro.
4) Pourquoi divers schémas de codage universels préfèrent-ils un nombre de bits inférieur autour de l'origine? Ces hypothèses sont-elles simplement plus probables?
Maintenant, c'est loin de ma profondeur, mais Wikipedia dit que dans le schéma de codage universel, nous attendons ( par définition ) pour tout positif donc cette propriété semble être une simple conséquence de la définition et pas lié au retrait (ou est-ce que je manque quelque chose?)P( i ) ≥ P( i + 1 )je