Il n'y a aucune garantie qu'avoir des poids plus petits est en fait mieux. Le travail de régression du lasso et des crêtes en imposant des connaissances / hypothèses / contraintes préalables à la solution. Cette approche fonctionnera bien si les contraintes / hypothèses / contraintes antérieures sont bien adaptées à la distribution réelle qui a généré les données, et peuvent ne pas fonctionner correctement dans le cas contraire. En ce qui concerne la simplicité / complexité, ce ne sont pas les modèles individuels qui sont plus simples ou plus complexes. C'est plutôt la famille de modèles à l'étude.
D'un point de vue géométrique, le lasso et la régression des crêtes imposent des contraintes sur les poids. Par exemple, la pénalité commune / forme lagrangienne de régression de crête:
minβ∥y−Xβ∥22+λ∥β∥22
peut être réécrit sous la forme d'une contrainte équivalente:
minβ∥y−Xβ∥22s.t. ∥β∥22≤c
Cela montre clairement que la régression des crêtes contraint les poids à se situer dans une hypersphère dont le rayon est régi par le paramètre de régularisation. De même, le lasso contraint les poids à se trouver dans un polytope dont la taille est régie par le paramètre de régularisation. Ces contraintes signifient que la plupart de l'espace des paramètres d'origine est hors limites et nous recherchons les poids optimaux dans un sous-espace beaucoup plus petit. Ce sous-espace plus petit peut être considéré comme moins «complexe» que l'espace complet.
D'un point de vue bayésien, on peut penser à la distribution postérieure sur tous les choix possibles de poids. Le lasso et la régression de crête sont équivalents à l'estimation MAP après avoir placé un a priori sur les poids (le lasso utilise un a priori laplacien et la régression de crête utilise un a priori gaussien). Un postérieur plus étroit correspond à une plus grande restriction et moins de complexité, car une densité postérieure élevée est donnée à un plus petit ensemble de paramètres. Par exemple, multiplier la fonction de vraisemblance par un a priori gaussien étroit (ce qui correspond à une pénalité de crête importante) produit un postérieur plus étroit.
L'une des principales raisons d'imposer des contraintes / priorités est que le choix du modèle optimal dans une famille plus restreinte est moins susceptible de s'adapter que de le choisir dans une famille moins restreinte. En effet, la famille moins restreinte offre «plus» de façons d'ajuster les données, et il est de plus en plus probable que l'une d'entre elles puisse s'adapter aux fluctuations aléatoires de l'ensemble de formation. Pour un traitement plus formel, voir le compromis biais-variance . Cela ne signifie pas nécessairement que le choix d'un modèle dans une famille plus restreinte fonctionnera bien. Pour obtenir de bonnes performances, la famille restreinte contient en fait de bons modèles. Cela signifie que nous devons choisir une priorité / contrainte qui correspond bien au problème spécifique en question.