Le but de l'article était d'optimiser certains paramètres en maximisant la log-vraisemblance régularisée. Ensuite, ils calculent des dérivées partielles. Et puis les auteurs mentionnent qu'ils optimisent l'équation en utilisant L-BFGS, une procédure standard de Newton pour optimiser les fonctions lisses de nombreuses variables (pas plus de détails).
Comment ça marche ?