Je vais essayer de l'expliquer en cas linéaire. Considérons le modèle linéaire
Lorsque (nombre de variables indépendantes inférieures ou égales au nombre d'observations) et que la matrice de conception a un rang complet, l'estimateur le moins carré de est et l'erreur de prédiction est
dont on peut déduire
Cela signifie que chaque paramètre est estimé avec une précision au carréAinsi, votre précision globale au carré est
Yi=∑j=1pβjX(j)i+ϵi,i=1,...,n.
p≤nbb^=(XTX)−1XTY
∥X(b^−β0)∥22σ2
E∥X(b^−β0)∥22n=σ2np.
β0jσ2/n,j=1,...,p.(σ2/n)p.
Et si le nombre d'observations est inférieur au nombre de variables indépendantes ? Nous «croyons» que toutes nos variables indépendantes ne jouent pas un rôle dans l'explication de , donc seules quelques-unes, disons , sont non nulles. Si nous savions quelles variables sont non nulles, nous pourrions négliger toutes les autres variables et par l'argument ci-dessus, la précision quadratique globale serait(p>n)Yk(σ2/n)k.
Parce que l'ensemble des variables non nulles est inconnu, nous avons besoin d'une pénalité de régularisation (par exemple ) avec le paramètre de régularisation (qui contrôle le nombre de variables). Maintenant, vous voulez obtenir des résultats similaires à ceux mentionnés ci-dessus, vous voulez estimer la précision au carré. Le problème est que votre estimateur optimal dépend maintenant de . Mais le grand fait est qu'avec un choix approprié pour vous pouvez obtenir une limite supérieure d'erreur de prédiction avec une probabilité élevée, c'est-à-dire "l'inégalité oracle"
Notez un facteur supplémentairel1λβ^λλ
∥X(β^−β0)∥22n≤const.σ2logpnk.
logp, qui est le prix pour ne pas connaître un ensemble de variables non nulles. " " ne dépend que de ou .
const.pn