Donc dans une distribution normale, nous avons deux paramètres: la moyenne et la variance σ 2 . Dans le livre Pattern Recognition and Machine Learning , il apparaît tout à coup un hyperparamètre λ dans les termes de régularisation de la fonction d'erreur.
Que sont les hyperparamètres? Pourquoi sont-ils nommés comme tels? Et en quoi sont-ils intuitivement différents des paramètres en général?