OP croit à tort que la relation entre ces deux fonctions est due au nombre d'échantillons (c.-à-d. Un seul vs tous). Cependant, la différence réelle est simplement la façon dont nous sélectionnons nos étiquettes de formation.
Dans le cas d'une classification binaire, nous pouvons attribuer les étiquettes ou .y=±1y=0,1
Comme cela a déjà été dit, la fonction logistique est un bon choix car elle a la forme d'une probabilité, c'est-à-dire et comme . Si nous choisissons les étiquettes nous pouvons attribuer σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
qui peut être écrit de manière plus compacte comme .P(y|z)=σ(z)y(1−σ(z))1−y
Il est plus facile de maximiser la probabilité de journalisation. Maximiser la log-vraisemblance équivaut à minimiser la log-vraisemblance négative. Pour échantillons , après avoir pris le logarithme naturel et quelques simplifications, nous découvrirons:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
Une dérivation complète et des informations supplémentaires peuvent être trouvées sur ce carnet jupyter . D'un autre côté, nous avons peut-être plutôt utilisé les étiquettes . Il est alors assez évident que nous pouvons attribuery=±1
P(y|z)=σ(yz).
Il est également évident que . En suivant les mêmes étapes que précédemment, nous minimisons dans ce cas la fonction de perteP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
Où la dernière étape suit après que nous prenons l'inverse qui est induit par le signe négatif. Bien que nous ne devrions pas assimiler ces deux formes, étant donné que dans chaque forme, prend des valeurs différentes, ces deux formes sont néanmoins équivalentes:y
−yizi+log(1+ezi)≡log(1+e−yzj)
Le cas est trivial à montrer. Si , alors sur le côté gauche et sur le côté droit.yi=1yi≠1yi=0yi=−1
Bien qu'il puisse y avoir des raisons fondamentales pour lesquelles nous avons deux formes différentes (voir Pourquoi il y a deux formulations / notations de pertes logistiques différentes ), une des raisons de choisir la première est pour des considérations pratiques. Dans le premier, nous pouvons utiliser la propriété pour calculer trivialement et , les deux étant nécessaires pour l'analyse de convergence (c'est-à-dire pour déterminer la convexité de la fonction de perte en calculant la Hesse ).∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)