J'ai suivi le cours "Machine Learning" d'Andrew Ng via Coursera il y a quelques mois, sans prêter attention à la plupart des mathématiques / dérivations et plutôt me concentrer sur la mise en œuvre et l'aspect pratique. Depuis lors, j'ai recommencé à étudier certaines des théories sous-jacentes et j'ai revu certaines des conférences du professeur Ng. Je lisais sa conférence sur la "régression linéaire régularisée" et j'ai vu qu'il donnait la fonction de coût suivante:
Ensuite, il donne le gradient suivant pour cette fonction de coût:
Je suis un peu confus quant à la façon dont il passe de l'un à l'autre. Quand j'ai essayé de faire ma propre dérivation, j'ai eu le résultat suivant:
La différence est le signe «plus» entre la fonction de coût d'origine et le paramètre de régularisation dans la formule du professeur Ng se transformant en signe «moins» dans sa fonction de gradient, alors que cela ne se produit pas dans mon résultat.
Intuitivement, je comprends pourquoi il est négatif: nous réduisons le paramètre thêta par le chiffre du gradient, et nous voulons que le paramètre de régularisation réduise la quantité que nous modifions pour éviter le sur-ajustement. Je suis juste un peu coincé sur le calcul qui soutient cette intuition.
Pour info, vous pouvez trouver le deck ici , sur les diapositives 15 et 16.