Dans les notes de cours de la semaine 3 du cours Coursera Machine Learning d' Andrew Ng , un terme est ajouté à la fonction de coût pour implémenter la régularisation:
Les notes de cours disent:
Nous pourrions également régulariser tous nos paramètres thêta en une seule sommation:
est appliqué plus tard au terme de régularisation des réseaux de neurones :
Rappelons que la fonction de coût pour la régression logistique régularisée était:
Pour les réseaux de neurones, ça va être un peu plus compliqué:
- Pourquoi la moitié constante est-elle utilisée ici? Pour qu'il s'annule dans la dérivée ?
- Pourquoi les exemples de formation division par ? Comment la quantité d'exemples de formation affecte-t-elle les choses?