Raison pour ne pas avoir réduit le terme de biais (interception) dans la régression


21

Pour un modèle linéaire , le terme de retrait est toujours .y=β0+Xβ+εP(β)

Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de neurones?β0


La bibliothèque liblinéaire de régression logistique utilisée dans scikit-learn pénalise le terme de biais (je pense que c'est un artefact d'implémentation, le biais est traité comme une variable d'entrée supplémentaire)
seanv507

Réponses:


33

Les éléments de l'apprentissage statistique par Hastie et al. définissez la régression de crête comme suit (section 3.4.1, équation 3.41): c'est-à dire exclure explicitement le terme d'interception de la pénalité de crête.

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2},
β0

Puis ils écrivent:

[...] notez que l'interception a été de la peine. La pénalisation de l'interception ferait dépendre la procédure de l'origine choisie pour ; c'est-à-dire que l'ajout d'une constante à chacune des cibles n'entraînerait pas simplement un décalage des prédictions de la même quantité . Y c y i cβ0Ycyic

En effet, en présence du terme d'interception, en ajoutant à tous les y i sera tout simplement conduire à la ß 0 augmentant de c ainsi et de manière correspondante les valeurs prédites y i permettra également d' augmenter par c . Ce n'est pas vrai si l'ordonnée à l'origine est pénalisée: β 0 devra augmenter de moins de c .cyiβ0cy^icβ0c

En fait, il existe plusieurs propriétés agréables et pratiques de régression linéaire qui dépendent de l'existence d'un terme d'interception approprié (non pénalisé). Par exemple , la valeur moyenne de et la valeur moyenne de y i sont égaux, et ( par conséquent) le coefficient de corrélation multiple au carré R est égal au coefficient de détermination R 2 : ( R ) 2 = cos 2 ( y , y ) = y2yiy^iRR2voir par exemple ce fil pour une explication:Interprétation géométrique du coefficient de corrélation multipleRet du coefficient de déterminationR2.

(R)2=cos2(y^,y)=y^2y2=R2,
RR2

Pénaliser l'interception conduirait à ce que tout cela ne soit plus vrai.


2

Rappelez-vous le but du retrait ou de la régularisation. Il s'agit d'empêcher l'algorithme d'apprentissage d'ajuster les données d'entraînement ou de manière équivalente - d'empêcher de choisir des valeurs de paramètres arbitrairement grandes. Cela est plus probable pour les ensembles de données avec plus de quelques exemples de formation en présence de bruit (une discussion très intéressante sur la présence de bruit et son impact est discutée dans "Learning from Data" de Yaser Abu-Mustafa). Un modèle appris sur des données bruyantes sans régularisation fonctionnera probablement mal sur certains points de données invisibles.

Dans cet esprit, imaginez que vous disposez de points de données 2D que vous souhaitez classer en deux classes. Ayant tous les paramètres de biais sauf ceux fixés, la variation du terme de biais ne fera que déplacer la limite vers le haut ou vers le bas. Vous pouvez généraliser cela à un espace de dimension supérieure.

L'algorithme d'apprentissage ne peut pas attribuer des valeurs arbitrairement grandes pour le terme de biais, car cela entraînera éventuellement une valeur de perte brute (le modèle ne correspondra pas aux données d'apprentissage). En d'autres termes, étant donné un ensemble d'entraînement, vous (ou un algorithme d'apprentissage) ne pouvez pas éloigner arbitrairement l'avion du vrai.

Il n'y a donc aucune raison de réduire le terme de biais, l'algorithme d'apprentissage trouvera le bon sans risque de surapprentissage.

Une note finale: J'ai vu dans certains articles que lorsque l'on travaille dans des espaces de grande dimension pour la classification, il n'est pas strictement nécessaire de modéliser le terme de biais. Cela peut fonctionner pour des données séparables linéairement car avec plus de dimensions ajoutées, il y a plus de possibilités de séparer les deux classes.


Pouvez-vous donner des références pour certains articles qui disent "lorsque vous travaillez dans des espaces de grande dimension pour la classification, il n'est pas strictement nécessaire de modéliser le terme de biais"?
chandresh

1

Le terme d'interception n'est absolument pas à l'abri du retrait. La formulation générale de «rétrécissement» (c.-à-d. Régularisation) place le terme de régularisation dans la fonction de perte, par exemple:

RSS(β)=yje-Xjeβ2

RegulunerjezeLoss(β)=RSS(β)-λF(β)

F(β)λ

βP(β)β0y=Xβ+ϵX1s

Maintenant, je ne peux pas parler de régularisation pour les réseaux de neurones. Il est possible que pour les réseaux de neurones, vous souhaitiez éviter le rétrécissement du terme de biais ou autrement concevoir la fonction de perte régularisée différemment de la formulation que j'ai décrite ci-dessus. Je ne sais juste pas. Mais je soupçonne fortement que les pondérations et les termes de biais sont régularisés ensemble.


2
Cela dépend de la convention, mais par exemple Les éléments de l'apprentissage statistique par Hastie et al. définir la régression des crêtes de telle sorte que l'interception ne soit pas pénalisée (voir ma réponse). Je soupçonne que cela pourrait être plus standard qu'autrement.
Amoeba dit Reinstate Monica

1

Je ne suis pas sûr que la réponse ci-dessus de David Marx soit tout à fait juste; selon Andrew Ng, par convention, le coefficient de biais / interception n'est généralement pas régularisé dans une régression linéaire, et en tout cas, s'il est régularisé ou non, cela ne fait pas de différence significative.


1

Je vais donner l'explication la plus simple, puis je développerai.

yt=εt
E[εt]=E[yt]0

β

ββ0

yt=β0+εt
E[yt]=β0+E[εt]
E[εt]=0β0=μ=E[yt]

Ce modèle n'est pas aussi sexy que le modèle d'origine, c'est plutôt idiot, en fait. Cependant, c'est un modèle légitime. Vous pouvez exécuter ANOVA dessus, par exemple.

β0=E[yt]

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.