Comment calculer les poids des critères Fisher?

J'étudie la reconnaissance des formes et l'apprentissage automatique, et je suis tombé sur la question suivante.

Considérons un problème de classification à deux classes avec une probabilité de classe antérieure égale
$P (D_{1}) = P (D_{2}) = \frac{1}{2}$ $P(D_1)=P(D_2)= \frac{1}{2}$
et la distribution des instances dans chaque classe donnée par

$p (x | D_{1}) = N ([\begin{matrix} 0 \\ 0 \end{matrix}], [\begin{matrix} 2 & 0 \\ 0 & 1 \end{matrix}]),$ $p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right),$
$p (x | D_{2}) = N ([\begin{matrix} 4 \\ 4 \end{matrix}], [\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}]) .$ $p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right).$
Comment calculer les poids des critères Fisher?

Mise à jour 2: Le poids calculé fourni par mon livre est: $W=\begin{bmatrix} \frac{-4}{3} \\ \frac{-2}{9} \end{bmatrix}$ .

Mise à jour 3: Comme laissé entendre par @xeon, je comprends que je devrais déterminer la ligne de projection pour le discriminant de Fisher.

Mise à jour 4: Soit $W$ la direction de la ligne de projection, alors la méthode discriminante linéaire de Fisher trouve que le meilleur $W$ est celui pour lequel la fonction de critère est maximisée. Le défi restant est de savoir comment obtenir numériquement le vecteur $W$ ?

— Dr. Hoshang
source

Votre première distribution n'est pas définie. En particulier, la deuxième variable de la paire a une distribution dégénérée avec une variance nulle, mais a une covariance positive avec la première variable, ce qui est impossible.

— owensmartin

@owensmartin avez-vous une idée, comment ces valeurs ont-elles été calculées?

— Dr.Hoshang

Quelle est la définition du poids du critère de Fisher?

— Vladislavs Dovgalecs

Je veux dire que le discriminant linéaire de Fisher est donné par le vecteur w qui maximise ... il est noté sur tous les matériaux comme luthuli.cs.uiuc.edu/~daf/courses/Learning/Kernelpapers/… à la p. 2. est-ce okey @xeon?

— Dr.Hoshang

Astuce: Quelle sera la frontière entre les deux classes? Linéaire, polynomial, autre chose?

— Vladislavs Dovgalecs

Réponses:

À la suite de l'article auquel vous avez lié (Mika et al., 1999) , nous devons trouver le qui maximise le soi-disant quotient de Rayleigh généralisé , $\mathbf{w}$

\frac{w^{⊤} S_{B} w}{w^{⊤} S_{W} w},

$\frac{\mathbf{w}^\top \mathbf{S}_B \mathbf{w}}{\mathbf{w}^\top \mathbf{S}_W \mathbf{w}},$

où pour les moyens et les covariances , $\mathbf{m}_1, \mathbf{m}_2$ $\mathbf{C}_1, \mathbf{C}_2$

\begin{aligned} S_{B} & = (m_{1} - m_{2}) (m_{1} - m_{2})^{⊤}, & S_{W} & = C_{1} + C_{2} . \end{aligned}

$\begin{align} \mathbf{S}_B &= (\mathbf{m}_1 - \mathbf{m}_2)(\mathbf{m}_1 - \mathbf{m}_2)^\top, & \mathbf{S}_W &= \mathbf{C}_1 + \mathbf{C}_2. \end{align}$

La solution peut être trouvée en résolvant le problème généralisé des valeurs propres par le premier calcul les valeurs propres en résolvant puis en résolvant pour le vecteur propre . Dans votre cas, Le déterminant de cette matrice 2x2 peut être calculé à la main.

\begin{aligned} S_{B} w = λ S_{W} w, \end{aligned}

$\begin{align} \mathbf{S}_B\mathbf{w} = \lambda \mathbf{S}_W\mathbf{w}, \end{align}$

λ

$\lambda$

\begin{aligned} det (S_{B} - λ S_{W}) = 0 \end{aligned}

$\begin{align} \det(\mathbf{S}_B - \lambda \mathbf{S}_W) = 0 \end{align}$

w

$\mathbf{w}$

S_{B} - λ S_{W} = (\begin{matrix} 16 - 3 λ & 16 \\ 16 & 16 - 2 λ \end{matrix}) .

$\mathbf{S}_B - \lambda \mathbf{S}_W = \begin{pmatrix}16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda\end{pmatrix}.$

Le vecteur propre avec la plus grande valeur propre maximise le quotient de Rayleigh. Au lieu de faire les calculs à la main, j'ai résolu le problème des valeurs propres généralisées en Python en utilisant scipy.linalg.eiget j'ai obtenu ce qui est différent de la solution que vous avez trouvée dans votre livre. Ci-dessous, j'ai tracé l'hyperplan optimal du vecteur de poids que j'ai trouvé (noir) et l'hyerplan du vecteur de poids trouvé dans votre livre (rouge).

w_{1} \approx 0.5547, w_{2} \approx 0.8321,

$w_1 \approx 0.5547, w_2 \approx 0.8321,$

$\hskip1in$ entrez la description de l'image ici

— Lucas
source

Cet exemple est très intéressant. Les deux lignes séparent les deux classes mais l'une d'elles est "meilleure" du point de vue de la théorie de l'apprentissage.

— Vladislavs Dovgalecs

Le critère de Fisher est détaillé à la section 5-2-3 sur books.google.com/…

— nini le

@Lucas peut-être que le résultat en question est proche des commentaires de xeon, "Peut-être devrions-nous rapporter le vecteur unitaire w puisque l'hyperplan est défini par la direction, pas par la magnitude." N'est-ce pas?

— nini

Oh !!! question difficile, je recommande à tous de voir la page 2 sur dml.ir/wp-content/uploads/2012/04/SPR-S12-M-Sol.pdf

— user153695

@Lucas Merci. veuillez ajouter une autre image pour W = [- 2/3 -2/3] et W = [- 4/3 -2/3] et W = [- 2 -3] avec trois couleurs différentes pour voir la frontière? Merci. Je vous offre une prime pour une belle réponse.

— nini

$\mathbf{SOLUTION 1:}$

Après Duda et al. (Pattern CLassification) qui a une solution alternative à @lucas et dans ce cas donne une solution très facile à calculer à la main. (J'espère que cette solution alternative vous aidera !! :))

Dans deux LDA de classe, l'objectif est:

$\frac{w^TS_Bw}{w^TS_Ww}$ ce qui signifie simplement que l'augmentation de la variance entre classes et la diminution de la variance intra classe.

où et , ici sont une matrice de covariance et sont des moyennes de classe 1 et 2 respectivement. $S_B = (m_1-m_2)(m_1-m_2)^T$ $S_W = S_1 + S_2$ $S_1,S_2$ $m_1,m_2$

La solution de ce quotient de raleigh généralisé est un probem de valeur propre généralisée.

$S_Bw = \lambda S_Ww \rightarrow {S_W}^{-1}S_Bw = \lambda w$

La formulation ci-dessus a une solution sous forme fermée. est une matrice de rang 1 avec une base donc qui peut être normlizd pour obtenir la réponse. $S_B$ $m_1-m_2$ $w \propto {S_W}^{-1}(m1-m2)$

Je viens de calculer le et j'ai obtenu [0,5547; 0,8321]. $w$

${S_W}^{-1}(m1-m2) = {(S_1 + S_2)}^{-1}(m1 - m2) = {(\begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} + \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix})}^{-1}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) ={(\begin{bmatrix} 1/3 & 0 \\ 0 & 1/2 \end{bmatrix})}(\begin{bmatrix} 0 \\ 0 \end{bmatrix} - \begin{bmatrix} 4 \\ 4 \end{bmatrix} ) = \begin{bmatrix} -1.3333 \\ -2.0000 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

Réf: Classification des motifs par Duda, Hart, Stork

$\mathbf{SOLUTION 2:}$

Alternativement, il peut être résolu en trouvant un vecteur propre au problème de valeur propre généralisé. $S_Bw = \lambda S_Ww$

Un polynôme dans lambda peut être formé par un et les solutions à ce polynôme seront la valeur propre pour . Supposons maintenant que vous ayez un ensemble de valeurs propres tant que racines du polynôme. Remplacez maintenant et obtenez le vecteur propre correspondant comme solution au système linéaire d'équations . En faisant cela pour chaque i, vous pouvez obtenir un ensemble de vecteurs et c'est un ensemble de vecteurs propres comme solutions. $determinant(S_B - \lambda S_W)$ $S_Bw = \lambda S_Ww$ $\lambda_1,\lambda_2, ..., \lambda_n,$ $\lambda = \lambda_i, i \in \{1,2,..,n\}$ $S_Bw_i = \lambda_i S_Ww_i$ $\{w_i\}_{i=1}^{n}$

$determinant(S_B - \lambda S_W) = \begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix} =6\lambda^2 - 80\lambda$ , donc les valeurs propres sont racines au polynôme . $6\lambda^2 - 80\lambda$

Donc 0 et 40/3 sont les deux solutions. Pour LDA, le vecteur propre correspondant à la valeur propre la plus élevée est la solution. $\lambda=$

Solution au système d'équation et $(S_B - \lambda_i S_W)w_i = 0$ $\lambda_i = 40/3$

qui se révèle être $\begin{bmatrix} 16 - 3\lambda & 16 \\ 16 & 16 - 2\lambda \end{bmatrix}w_i \propto \begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}w_i = 0$

La solution au système d'équation ci-dessus est qui est identique à la solution précédente. $\begin{bmatrix} -0.5547 \\ -0.8321 \end{bmatrix} \propto \begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$

Alternativement, nous pouvons dire que se situe dans l'espace nul de . $\begin{bmatrix} 0.5547 \\ 0.8321 \end{bmatrix}$ $\begin{bmatrix} -72 & 48 \\ 48 & -32 \end{bmatrix}$

Pour une LDA à deux classes, le vecteur propre avec la valeur propre la plus élevée est la solution. En général, pour la classe C LDA, les premiers vecteurs propres C - 1 aux valeurs propres C - 1 les plus élevées constituent la solution.

Cette vidéo explique comment calculer des vecteurs propres pour un problème de valeur propre simple. ( https://www.khanacademy.org/math/linear-algebra/alternate_bases/eigen_everything/v/linear-algebra-finding-eigenvectors-and-eigenspaces-example )

Voici un exemple. http://www.sosmath.com/matrix/eigen2/eigen2.html

LDA multi-classe: http://en.wikipedia.org/wiki/Linear_discriminant_analysis#Multiclass_LDA

Calcul de l'espace nul d'une matrice: https://www.khanacademy.org/math/linear-algebra/vectors_and_spaces/null_column_space/v/null-space-2-calculating-the-null-space-of-a-matrix

— dksahuji
source

Belle réponse, tu veux dire que la réponse du livre est fausse !! Bien?

— Dr.Hoshang

Je crois que cette réponse est correcte et si votre livre définit et différemment, voyez ce que vous obtenez avec ces définitions.

S_{W}

$S_W$

S_{B}

$S_B$

— dksahuji

-1,33 est égal à -4/3 mais le deuxième élément est différent. Peut-être livre rapport unité vecteur w? N'est-ce pas? Merci beaucoup

— Dr.Hoshang

veuillez compléter la solution 2 pour atteindre la valeur de W à la prime

— nini

@ Dr.Hoshang: La solution dans votre livre est fausse. Je ne sais pas pourquoi.

— amibe dit Réintégrer Monica le