Si les statistiques visent à maximiser la probabilité, alors l'apprentissage automatique consiste à minimiser les pertes. Comme vous ne connaissez pas la perte que vous subirez sur les données futures, vous minimisez une approximation, c'est-à-dire une perte empirique.
Par exemple, si vous avez une tâche de prédiction et que vous êtes évalué par le nombre d'erreurs de classification, vous pouvez entraîner des paramètres afin que le modèle résultant produise le plus petit nombre d'erreurs de classification sur les données d'entraînement. Le "nombre de classifications erronées" (c'est-à-dire la perte 0-1) est une fonction de perte difficile à utiliser car il n'est pas différentiable, vous pouvez donc l'approcher avec un "substitut" fluide. Par exemple, la perte de journal est une limite supérieure à la perte 0-1, vous pouvez donc minimiser cela à la place, et cela se révélera être le même que maximiser la probabilité conditionnelle des données. Avec le modèle paramétrique, cette approche devient équivalente à la régression logistique.
Dans une tâche de modélisation structurée et une approximation log-loss de la perte 0-1, vous obtenez quelque chose de différent de la vraisemblance conditionnelle maximale, vous maximiserez plutôt le produit des vraisemblances marginales (conditionnelles).
Pour obtenir une meilleure approximation de la perte, les gens ont remarqué que le modèle de formation pour minimiser la perte et utiliser cette perte comme estimation de la perte future est une estimation trop optimiste. Ainsi, pour une minimisation plus précise (véritable perte future), ils ajoutent un terme de correction de biais à la perte empirique et minimisent cela, c'est ce que l'on appelle la minimisation structurée du risque.
En pratique, il peut être trop difficile de déterminer le bon terme de correction de biais, vous ajoutez donc une expression "dans l'esprit" du terme de correction de biais, par exemple, la somme des carrés des paramètres. En fin de compte, presque toutes les approches de classification supervisée en apprentissage machine paramétrique finissent par former le modèle pour minimiser les éléments suivants
∑iL(m(xi,w),yi)+P(w)
où est votre modèle paramétré par le vecteur w , i est repris par tous les points de données { x i , y i } , L est une bonne approximation calculatrice de votre perte réelle et P ( w ) est un terme de correction de biais / régularisationmwi{xi,yi}LP(w)
Par exemple, si votre , y ∈ { - 1 , 1 } , une approche typique serait de laisser m ( x ) = signe ( w ⋅ x ) , L ( m ( x ) , y ) = - log ( y × ( x ⋅ w ) ) , P (x∈{−1,1}dy∈{−1,1}m(x)=sign(w⋅x)L(m(x),y)=−log(y×(x⋅w)) , et choisissez q par validation croiséeP(w)=q×(w⋅w)q