En gros, il y a trois différentes sources d'erreur de prédiction:
- le biais de votre modèle
- la variance de votre modèle
- variance inexplicable
Nous ne pouvons rien faire au sujet du point 3 (sauf d'essayer d'estimer la variance inexpliquée et de l'incorporer à nos densités et intervalles de prédiction prédictifs). Cela nous laisse avec 1 et 2.
Si vous avez réellement le "bon" modèle, supposons que les estimations de paramètres MLS soient non biaisées et que la variance soit minimale entre tous les estimateurs non linéaires (linéaires) (ils sont BLEUS). Les prédictions d'un modèle OLS seront les meilleures prédictions linéaires sans biais (BLUP). Ça sonne bien.
Cependant, il s'avère que bien que nous ayons des prédictions non biaisées et une variance minimale entre toutes les prédictions non biaisées, la variance peut encore être assez importante. Plus important encore, nous pouvons parfois introduire "un peu" de biais et économiser simultanément "beaucoup" de variance - et en effectuant le compromis juste, nous pouvons obtenir une erreur de prédiction plus faible avec un modèle biaisé (variance inférieure) par rapport à un modèle non biaisé ( variance plus élevée) un. C'est ce qu'on appelle le "compromis biais-variance", et cette question et ses réponses sont éclairantes: quand un estimateur biaisé est-il préférable à un estimateur non biaisé?
Et la régularisation comme le lasso, la régression de crête, le filet élastique et ainsi de suite font exactement cela. Ils tirent le modèle vers zéro. (Les approches bayésiennes sont similaires - elles tirent le modèle vers les précédents.) Ainsi, les modèles régularisés seront biaisés par rapport aux modèles non régularisés, mais auront également une variance plus faible. Si vous choisissez votre droit de régularisation, le résultat est une prédiction avec une erreur plus faible.
Si vous recherchez une "régularisation des compromis biais-variance" ou similaire, vous aurez matière à réflexion. Cette présentation, par exemple, est utile.
EDIT: l’ amibe souligne à juste titre que j’ai la main à la main pour expliquer pourquoi la régularisation produit exactement une variance plus faible des modèles et des prévisions. Considérons un modèle de lasso avec un grand paramètre de régularisation . Si , vos estimations de paramètres de lasso seront toutes réduites à zéro. Un paramètre fixe de valeur zéro a une variance nulle. (Ce n'est pas tout à fait correct, car la valeur seuil de au-delà de laquelle vos paramètres seront ramenés à zéro dépend de vos données et de votre modèle. Mais, compte tenu du modèle et des données, vous pouvez trouver unX → ∞ X XλX → ∞λλtel que le modèle est le modèle zéro. Gardez toujours vos quantificateurs droits.) Cependant, le modèle zéro aura également un biais géant. Peu importe les observations, après tout.
Et la même chose s’applique aux valeurs pas-tout-ça-extrêmes de vos paramètres de régularisation: de petites valeurs donneront les estimations de paramètres non normalisées, qui seront moins biaisées (non biaisées si vous avez le modèle "correct"), mais ont variance. Ils vont "sauter" en suivant vos observations. Des valeurs plus élevées de votre régularisation "contraindront" vos paramètres de plus en plus. C'est pourquoi les méthodes ont des noms tels que "lasso" ou "réseau élastique": elles contraignent la liberté de vos paramètres de flotter autour et de suivre les données.λ
(J'écris un petit article à ce sujet qui, espérons-le, sera plutôt accessible. J'ajouterai un lien dès qu'il sera disponible.)