Pourquoi le retrait fonctionne-t-il vraiment, quelle est la particularité de 0?

Il y a déjà un article sur ce site qui parle du même problème: pourquoi le retrait fonctionne-t-il?

Mais, même si les réponses sont populaires, je ne crois pas que l'essentiel de la question soit vraiment abordé. Il est assez clair que l'introduction d'un biais dans l'estimation entraîne une réduction de la variance et peut améliorer la qualité de l'estimation. Pourtant:

1) Pourquoi les dommages causés par l'introduction de biais sont-ils moins importants que le gain de variance?

2) Pourquoi ça marche toujours? Par exemple en cas de Ridge Regression: le théorème d'existence

3) Qu'est-ce qui est si intéressant à propos de 0 (l'origine)? De toute évidence, nous pouvons rétrécir où nous voulons (c.-à-d. L' estimateur Stein ), mais cela fonctionnera-t-il aussi bien que l'origine?

4) Pourquoi divers schémas de codage universels préfèrent-ils un nombre de bits inférieur autour de l'origine? Ces hypothèses sont-elles simplement plus probables?

Des réponses contenant des références à des théorèmes éprouvés ou à des résultats établis sont attendues.

regularization ridge-regression shrinkage

— Cagdas Ozgenc
source

@ KarolisKoncevičius, merci d'avoir corrigé les liens! Permettez-moi de noter, cependant, que vos modifications de langue peuvent ne pas être très utiles, sauf pour la dernière. Les autres semblent ajouter du texte redondant et rendre ainsi le message légèrement moins lisible.

— Richard Hardy

3) "qu'est-ce qui est si intéressant à propos de l'origine?" comment comprenez-vous cette déclaration?. si vous avez un facteur de groupe (par exemple le pays) et un facteur individuel (par exemple la ville), le rétrécissement mettra la moyenne au niveau du pays, et seuls les écarts au niveau de la ville avec suffisamment de données auront un coefficient) - c'est-à-dire que votre modèle est poussé au niveau du groupe moyenne (pays) (en poussant les coefficients au niveau de la ville à zéro) ... et de même pour plus de niveaux dans les hiérarchies (et les hiérarchies multiples)

— seanv507

Réponses:

1) Pourquoi les dommages causés par l'introduction de biais sont-ils moins importants que le gain de variance?

Ce n'est pas nécessaire, c'est généralement le cas . Que le compromis en vaille la peine dépend de la fonction de perte. Mais les choses dont nous nous soucions dans la vie réelle sont souvent similaires à l'erreur quadratique (par exemple, nous nous soucions plus d'une grosse erreur que d'environ deux erreurs de la moitié de la taille).

À titre de contre-exemple - imaginez que pour les admissions à l'université, nous réduisons un peu les scores SAT des gens vers le SAT moyen pour leur démographie (quelle que soit la définition). Si cela est fait correctement, cela réduira la variance et l'erreur quadratique moyenne des estimations de (une sorte de) capacité de la personne tout en introduisant un biais. La plupart des gens estiment à mon humble avis qu'un tel compromis est inacceptable.

2) Pourquoi ça marche toujours?

3) Qu'est-ce qui est si intéressant à propos de 0 (l'origine)? De toute évidence, nous pouvons rétrécir où nous voulons (c.-à-d. L'estimateur Stein), mais cela fonctionnera-t-il aussi bien que l'origine?

Je pense que c'est parce que nous réduisons généralement les coefficients ou les estimations des effets. Il y a des raisons de croire que la plupart des effets ne sont pas importants (voir par exemple la prise d' Andrew Gelman ). Une façon de le dire est qu'un monde où tout influence tout avec un fort effet est un monde violent et imprévisible. Puisque notre monde est suffisamment prévisible pour nous permettre de vivre longtemps et de construire des civilisations semi-stables, il s'ensuit que la plupart des effets ne sont pas importants.

Comme la plupart des effets ne sont pas importants, il est utile de réduire à tort les quelques très gros effets tout en réduisant correctement les charges d'effets négligeables.

Je crois que c'est juste une propriété de notre monde et vous pourriez probablement construire des mondes auto-cohérents où le retrait n'est pas pratique (très probablement en faisant de l'erreur quadratique moyenne une fonction de perte impossible). Ce n'est tout simplement pas le monde dans lequel nous vivons.

D'un autre côté, lorsque nous considérons le retrait comme une distribution antérieure dans l'analyse bayésienne, il y a des cas où le retrait à 0 est activement nuisible dans la pratique.

Un exemple est l'échelle de longueur dans les processus gaussiens (où 0 est problématique) la recommandation dans le manuel de Stan est d'utiliser un a priori qui met un poids négligeable proche de zéro, c'est-à-dire "rétrécissant" efficacement les petites valeurs à partir de zéro. De même, les antérieurs recommandés pour la dispersion dans la distribution binomiale négative se rétractent efficacement à partir de zéro. Enfin et surtout, chaque fois que la distribution normale est paramétrée avec précision (comme dans INLA), il est utile d'utiliser le gamma inverse ou d'autres distributions antérieures qui s'éloignent de zéro.

4) Pourquoi divers schémas de codage universels préfèrent-ils un nombre de bits inférieur autour de l'origine? Ces hypothèses sont-elles simplement plus probables?

Maintenant, c'est loin de ma profondeur, mais Wikipedia dit que dans le schéma de codage universel, nous attendons ( par définition ) pour tout positif donc cette propriété semble être une simple conséquence de la définition et pas lié au retrait (ou est-ce que je manque quelque chose?) $P(i) ≥ P(i + 1)$ $i$

— Martin Modrák
source

La réponse à 1) est en fait bonne!

— David

Il est clair qu'Andrew Gelman avait en tête des modèles standard dans lesquels nous multiplions les coefficients par les entrées. Cela ne doit pas nécessairement être le cas. Et si le coefficient venait inversement dans le modèle? Alors 0 fera exploser les choses.

— Cagdas Ozgenc

@CowboyTrader Oui et il existe des cas d'utilisation réels où 0 est problématique et nous rétrécissons (ajouté à la réponse). Je crois donc que cela soutient légèrement le fait que le rétrécissement vers zéro n'est qu'une heuristique qui arrive à fonctionner (en pratique) fréquemment, mais pas une vérité mathématique fondamentale.

— Martin Modrák

Désolé pour ma première réaction. Votre réponse devient plus significative. Notez que le retrait fonctionne sous d'autres fonctions de perte, pas seulement sous la perte carrée. Le vrai problème que je cherche est pourquoi diable ça marche toujours? Pour les paramètres de moyenne / emplacement, 0 semble être un nombre magique.

— Cagdas Ozgenc

@CowboyTrader Il me manque peut-être quelque chose, mais au moins dans le cas de l'estimateur Stein, l'amélioration due au rétrécissement est fonction de la distance entre les vraies valeurs et le point auquel vous rétrécissez, donc 0 n'est pas un nombre magique. De plus, si est grand par rapport aux valeurs observées, l'estimateur Stein éloignera l'estimation de zéro. Je ne suis donc pas sûr que le schéma général dont vous parlez existe réellement pour la moyenne / l'emplacement. Ou existe-t-il d'autres exemples qui présentent toujours un retrait vers zéro?

σ

$\sigma$

— Martin Modrák

La crête, le lasso et le filet élastique sont similaires aux méthodes bayésiennes avec des a priori centrés sur zéro - voir, par exemple, Statistical Learning with Sparsity de Hastie, Tibshirani et Wainwright, section 2.9 Lq Penalties and Bayes Estimates: "Il existe également une vue bayésienne de ces estimateurs. ... Cela signifie que l'estimation au lasso est l'estimateur bayésien MAP (maximum aposteriori) utilisant un a priori laplacien. "

Une façon de répondre à votre question ( what's so special about zero?) est que les effets que nous estimons sont en moyenne nuls, et ils ont tendance à être petits (c'est-à-dire que nos priorités doivent être centrées autour de zéro). Le rétrécissement des estimations vers zéro est alors optimal au sens bayésien, et le lasso et la crête et les filets élastiques peuvent être pensés à travers cette lentille.

— Adrian
source

Le rétrécissement à zéro n'a rien de spécial (sauf que l'équation est plus simple car vous multipliez simplement le résultat avec un facteur particulier). Vous pouvez également réduire à tout autre point. Plus ce point est éloigné de la valeur réelle, moins les performances du rétrécissement sont bonnes (mais pour tout point, il existe un certain rétrécissement qui donnera une certaine augmentation des performances ... au moins pour les variables gaussiennes distribuées). Ainsi, lorsqu'un résultat est généralement loin de zéro, la réduction à zéro n'apportera que très peu d'amélioration.

— Sextus Empiricus

@MartijnWeterings Clairement mettre un prior sur la vérité elle-même sera idéal (bull-eye). Mais pourquoi ramener à 0 donne encore une certaine amélioration? C'est ce que je recherche.

— Cagdas Ozgenc

@CowboyTrader Rétrécir à n'importe quelle valeur donne une amélioration. C'est pourquoi cela fonctionne aussi pour 0.

— Sextus Empiricus

@MartijnWeterings Oui, mais les limites de la théorie de l'apprentissage sont presque toujours basées sur l'origine. Ils ont mis une boule / polyèdre / etc centrée à l'origine. Est-ce juste une commodité de preuve? Le codage d'hypothèses MDL code des entiers en donnant à 0 la longueur de code la plus courte? Est-ce une coïncidence?

— Cagdas Ozgenc

Supposons donc que vous effectuez une régression de crête dans le cas où toutes les variables font réellement partie du modèle (ce qui n'est pas courant dans la pratique), cela ne fonctionnera pas si bien. C'est peut-être ce que Adrian voulait dire par "les effets sont en moyenne nuls, et ils ont tendance à être faibles" (je ne connais pas de cas pour lesquels cela est exactement vrai. Mais il y a beaucoup de cas dans l'apprentissage automatique où nous nourrissons beaucoup de et où beaucoup ne sont probablement pas nécessaires, la plupart des effets sont nuls ou faibles.)

— Sextus Empiricus