Considérons les trois phénomènes suivants.
Le paradoxe de Stein: étant donné certaines données de la distribution normale multivariée dans , la moyenne de l'échantillon n'est pas un très bon estimateur de la moyenne vraie. On peut obtenir une estimation avec une erreur quadratique moyenne plus faible si on réduit toutes les coordonnées de la moyenne de l’échantillon vers zéro (ou vers leur moyenne, ou même vers n’importe quelle valeur, si je comprends bien).
NB: le paradoxe de Stein est généralement formulé en prenant en compte un seul point de données de ; corrigez-moi s'il vous plaît si cela est crucial et que ma formulation ci-dessus n'est pas correcte.
Régression de crête: étant donné une variable dépendante et des variables indépendantes , la régression standard tend sur-adapter les données et conduire à des performances médiocres hors échantillon. On peut souvent réduire les surajustements en diminuant vers zéro: .
Effets aléatoires dans les modèles multiniveaux / mixtes: étant donné la variable dépendante (par exemple la taille de l’élève) qui dépend de certains prédicteurs catégoriques (par exemple, l’identité de l’école et le sexe de l’élève), il est souvent conseillé de traiter certains prédicteurs comme "aléatoires", c'est-à-dire la taille moyenne des élèves dans chaque école provient d'une distribution sous-jacente normale. Cela a pour effet de réduire les estimations de la hauteur moyenne par école à la moyenne mondiale.
J'ai l'impression que tout cela relève de différents aspects du même phénomène de "rétrécissement", mais je n'en suis pas sûr et je manque cruellement d'intuition. Ma question principale est donc la suivante: existe-t-il effectivement une similitude profonde entre ces trois choses, ou s’agit-il seulement d’un semblant superficiel? Quel est le thème commun ici? Quelle est la bonne intuition à ce sujet?
De plus, voici quelques pièces de ce puzzle qui ne me vont pas vraiment ensemble:
Dans la régression de crête, n'est pas rétréci uniformément; le retrait de la crête est en fait lié à la décomposition en valeurs singulières de , les directions à faible variance étant davantage réduites (voir par exemple Les éléments de l’apprentissage statistique 3.4.1). Mais l’estimateur de James-Stein prend simplement la moyenne de l’échantillon et le multiplie par un facteur d’échelle. Comment ça va ensemble?
Mise à jour: voir l' estimateur James-Stein avec des variances inégales et par exemple ici en ce qui concerne les variances des coefficients .
La moyenne de l'échantillon est optimale pour les dimensions inférieures à 3. Cela signifie-t-il que lorsqu'il n'y a qu'un ou deux prédicteurs dans le modèle de régression, la régression de crête sera toujours pire que les moindres carrés ordinaires? En fait, à bien y penser, je ne peux pas imaginer une situation dans 1D (c'est-à-dire une régression simple et non multiple) dans laquelle une réduction de la crête serait bénéfique ...
Mise à jour: Non. Voir Dans quelles conditions exactement la régression de crête peut-elle apporter une amélioration par rapport à la régression des moindres carrés ordinaires?
Par ailleurs, la moyenne de l'échantillon est toujours inférieure aux dimensions optimales supérieures à 3. Cela signifie-t-il qu'avec plus de 3 prédicteurs, la régression de crête est toujours meilleure que la méthode MCO, même si tous les prédicteurs sont non corrélés (orthogonaux)? La régression de crête est généralement motivée par la multicolinéarité et la nécessité de "stabiliser" le terme .
Mise à jour: oui! Voir le même fil que ci-dessus.
Il y a souvent des discussions animées sur la question de savoir si divers facteurs de l'ANOVA devraient être inclus en tant qu'effets fixes ou aléatoires. Par la même logique, ne devrions-nous pas toujours, par la même logique, traiter un facteur comme aléatoire s'il comporte plus de deux niveaux (ou s'il y a plus de deux facteurs? Maintenant, je suis confus)?
Mise à jour :?
Mise à jour: J'ai obtenu d'excellentes réponses, mais aucune ne donne une image assez large, je laisserai donc la question "ouverte". Je peux promettre d’accorder une prime d’au moins 100 points à une nouvelle réponse qui surpassera les réponses existantes. Je recherche principalement un point de vue unificateur qui pourrait expliquer comment le phénomène général du retrait se manifeste dans ces divers contextes et souligner les principales différences entre eux.