Supposons en général que vous avez décidé de prendre un modèle du formulaire
P( y= 1 | X= x ) = h ( x ; Θ )
pour un paramètre . Ensuite, vous écrivez simplement la probabilité, c'est-à-direΘ
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yje= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yje= 0P( y= 0 | x = x ; Θ )
ce qui est le même que
L ( Θ ) = ∏i ∈ { 1 , . . . , N} , yje= 1P( y= 1 | x = x ; Θ ) ⋅ ∏i ∈ { 1 , . . . , N} , yje= 0( 1 - P( y= 1 | x = x ; Θ ) )
Vous avez maintenant décidé de `` supposer '' (modèle)
P( y= 1 | X= x ) = σ( Θ0+ Θ1x )
où
σ( z) = 1 / ( 1 + e- z)
il vous suffit donc de calculer la formule de la probabilité et de faire une sorte d'algorithme d'optimisation afin de trouver l' , par exemple, la méthode newtons ou toute autre méthode basée sur un gradient.argmaxΘL ( Θ )
Notez que parfois, les gens disent que lorsqu'ils effectuent une régression logistique, ils ne maximisent pas une probabilité (comme nous / vous l'avez fait ci-dessus), mais plutôt qu'ils minimisent une fonction de perte
l ( Θ ) = - ∑i = 1NyjeJournal( P( Yje= 1 | X= x ; Θ ) ) + ( 1 - yje) journal( P( Yje= 0 | X= x ; Θ ) )
mais notez que .- journal( L ( Θ ) ) = l ( Θ )
Il s'agit d'un modèle général dans l'apprentissage automatique: le côté pratique (minimiser les fonctions de perte qui mesurent à quel point un modèle heuristique est `` faux '') est en fait égal au `` côté théorique '' (modélisation explicite avec le symbole , maximisant les quantités statistiques comme probabilités) et en fait, de nombreux modèles qui ne ressemblent pas à des probabilistes (SVM par exemple) peuvent être compris de nouveau dans un contexte probabiliste et sont en fait des maximisations de vraisemblances.P