Pour un modèle linéaire , le terme de retrait est toujours .
Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de neurones?
Pour un modèle linéaire , le terme de retrait est toujours .
Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de neurones?
Réponses:
Les éléments de l'apprentissage statistique par Hastie et al. définissez la régression de crête comme suit (section 3.4.1, équation 3.41): c'est-à dire exclure explicitement le terme d'interception de la pénalité de crête.
Puis ils écrivent:
[...] notez que l'interception a été de la peine. La pénalisation de l'interception ferait dépendre la procédure de l'origine choisie pour ; c'est-à-dire que l'ajout d'une constante à chacune des cibles n'entraînerait pas simplement un décalage des prédictions de la même quantité . Y c y i c
En effet, en présence du terme d'interception, en ajoutant à tous les y i sera tout simplement conduire à la ß 0 augmentant de c ainsi et de manière correspondante les valeurs prédites y i permettra également d' augmenter par c . Ce n'est pas vrai si l'ordonnée à l'origine est pénalisée: β 0 devra augmenter de moins de c .
En fait, il existe plusieurs propriétés agréables et pratiques de régression linéaire qui dépendent de l'existence d'un terme d'interception approprié (non pénalisé). Par exemple , la valeur moyenne de et la valeur moyenne de y i sont égaux, et ( par conséquent) le coefficient de corrélation multiple au carré R est égal au coefficient de détermination R 2 : ( R ) 2 = cos 2 ( y , y ) = ‖ y ‖ 2voir par exemple ce fil pour une explication:Interprétation géométrique du coefficient de corrélation multipleRet du coefficient de déterminationR2.
Pénaliser l'interception conduirait à ce que tout cela ne soit plus vrai.
Rappelez-vous le but du retrait ou de la régularisation. Il s'agit d'empêcher l'algorithme d'apprentissage d'ajuster les données d'entraînement ou de manière équivalente - d'empêcher de choisir des valeurs de paramètres arbitrairement grandes. Cela est plus probable pour les ensembles de données avec plus de quelques exemples de formation en présence de bruit (une discussion très intéressante sur la présence de bruit et son impact est discutée dans "Learning from Data" de Yaser Abu-Mustafa). Un modèle appris sur des données bruyantes sans régularisation fonctionnera probablement mal sur certains points de données invisibles.
Dans cet esprit, imaginez que vous disposez de points de données 2D que vous souhaitez classer en deux classes. Ayant tous les paramètres de biais sauf ceux fixés, la variation du terme de biais ne fera que déplacer la limite vers le haut ou vers le bas. Vous pouvez généraliser cela à un espace de dimension supérieure.
L'algorithme d'apprentissage ne peut pas attribuer des valeurs arbitrairement grandes pour le terme de biais, car cela entraînera éventuellement une valeur de perte brute (le modèle ne correspondra pas aux données d'apprentissage). En d'autres termes, étant donné un ensemble d'entraînement, vous (ou un algorithme d'apprentissage) ne pouvez pas éloigner arbitrairement l'avion du vrai.
Il n'y a donc aucune raison de réduire le terme de biais, l'algorithme d'apprentissage trouvera le bon sans risque de surapprentissage.
Une note finale: J'ai vu dans certains articles que lorsque l'on travaille dans des espaces de grande dimension pour la classification, il n'est pas strictement nécessaire de modéliser le terme de biais. Cela peut fonctionner pour des données séparables linéairement car avec plus de dimensions ajoutées, il y a plus de possibilités de séparer les deux classes.
Le terme d'interception n'est absolument pas à l'abri du retrait. La formulation générale de «rétrécissement» (c.-à-d. Régularisation) place le terme de régularisation dans la fonction de perte, par exemple:
Maintenant, je ne peux pas parler de régularisation pour les réseaux de neurones. Il est possible que pour les réseaux de neurones, vous souhaitiez éviter le rétrécissement du terme de biais ou autrement concevoir la fonction de perte régularisée différemment de la formulation que j'ai décrite ci-dessus. Je ne sais juste pas. Mais je soupçonne fortement que les pondérations et les termes de biais sont régularisés ensemble.
Je ne suis pas sûr que la réponse ci-dessus de David Marx soit tout à fait juste; selon Andrew Ng, par convention, le coefficient de biais / interception n'est généralement pas régularisé dans une régression linéaire, et en tout cas, s'il est régularisé ou non, cela ne fait pas de différence significative.