En bref, la régression logistique a des connotations probabilistes qui vont au-delà de l'utilisation du classificateur en ML. J'ai quelques notes sur la régression logistique ici .
L'hypothèse de régression logistique fournit une mesure de l'incertitude quant à l'occurrence d'un résultat binaire basé sur un modèle linéaire. La sortie est bornée asymptotiquement entre et 1 et dépend d'un modèle linéaire, de sorte que lorsque la ligne de régression sous-jacente a la valeur 0 , l'équation logistique est 0,5 = e 0010 , fournissant un point de coupure naturel à des fins de classification. Cependant, c'est au prix de jeter les informations de probabilité dans le résultat réel deh(ΘTx)=e Θ T x0,5 = e01 + e0 , ce qui est souvent intéressant (par exemple, probabilité de défaut de paiement en fonction du revenu, du pointage de crédit, de l'âge, etc.)h ( ΘTx ) = eΘTX1 + eΘTX
L'algorithme de classification du perceptron est une procédure plus basique, basée sur les produits scalaires entre les exemples et les poids . Chaque fois qu'un exemple est mal classé, le signe du produit scalaire est en contradiction avec la valeur de classification ( et 1 ) dans l'ensemble d'apprentissage. Pour corriger cela, l'exemple de vecteur sera ajouté ou soustrait itérativement du vecteur de poids ou de coefficients, en mettant progressivement à jour ses éléments:- 11
Vectorialement, les caractéristiques ou attributs d'un exemple sont x , et l'idée est de "passer" l'exemple si:réX
ou ...∑1réθjeXje> theshold
. La fonction signe donne1ou-1, par opposition à0et1en régression logistique.h ( x ) = signe ( ∑1réθjeXje- theshold )1- 101
Le seuil sera absorbé dans le coefficient de biais , . La formule est maintenant:+ θ0
, ou vectorisé:h(x)=signe( θ T x).h ( x ) = signe ( ∑0réθjeXje)h ( x ) = signe ( θTx )
Les points mal classés auront le , ce qui signifie que le produit scalaire de Θ et x n sera positif (vecteurs dans la même direction), lorsque y n est négatif, ou le produit scalaire sera négatif (vecteurs dans des directions opposées), alors que y n est positif.signe ( θTx ) ≠ ynΘXnynyn
J'ai travaillé sur les différences entre ces deux méthodes dans un ensemble de données du même cours , dans lequel les résultats des tests dans deux examens distincts sont liés à l'acceptation finale au collège:
La frontière de décision peut être facilement trouvée avec la régression logistique, mais il était intéressant de voir que, bien que les coefficients obtenus avec le perceptron soient très différents de ceux de la régression logistique, la simple application de la fonction aux résultats a donné une classification aussi bonne algorithme. En fait, la précision maximale (la limite fixée par l'inséparabilité linéaire de certains exemples) a été atteinte par la deuxième itération. Voici la séquence des lignes de division des limites alors que 10 itérations se rapprochent des poids, à partir d'un vecteur aléatoire de coefficients:signe ( ⋅ )dix
La précision de la classification en fonction du nombre d'itérations augmente rapidement et les plateaux à , ce qui correspond à la vitesse à laquelle une limite de décision presque optimale est atteinte dans le vidéoclip ci-dessus. Voici l'intrigue de la courbe d'apprentissage:90 %
Le code utilisé est ici .