Comment la similitude du cosinus change-t-elle après une transformation linéaire?

9

Existe-t-il une relation mathématique entre:

la similitude cosinus de deux vecteurs et , et $\operatorname{sim}(A, B)$ $A$ $B$
la similitude cosinus de et , mis à l'échelle de manière non uniforme via une matrice donnée ? Ici est une matrice diagonale donnée avec des éléments inégaux sur la diagonale. $\operatorname{sim}(MA, MB)$ $A$ $B$ $M$ $M$

J'ai essayé de parcourir les calculs, mais je n'ai pas pu atteindre un lien (expression) simple / intéressant. Je me demande s'il y en a un.

Par exemple, les angles ne sont pas conservés dans une mise à l'échelle non uniforme, mais quelle est la relation entre les angles d'origine et ceux après la mise à l'échelle non uniforme? Que peut-on dire du lien entre un ensemble de vecteurs S1 et un autre ensemble de vecteurs S2 - où S2 est obtenu par une mise à l'échelle non uniforme de S1?

linear-algebra cosine-similarity

— turdus-merula
source

@whuber, merci! Oui, M est une matrice donnée (une matrice de mise à l'échelle - donc une matrice diagonale, pas d'autres restrictions). Dans un sens, je voulais savoir ce qui arrive (en termes de similitude cosinus pour toute paire de vecteurs) à un espace vectoriel qui subit une mise à l'échelle non linéaire.

— turdus-merula

2

Il peut être intéressant de noter que si tous les facteurs d'échelle sont non négatifs (comme on pourrait naturellement le supposer), alors toutes les matrices symétriques définies-positives peuvent être considérées comme des matrices "d'échelle". La relation que vous recherchez est largement utilisée, entre autres , dans l'étude et la description de la distorsion dans les projections cartographiques. Là, les centres d'intérêt dans les angles maximum et minimum sur la surface de la terre qui seraient associés à deux directions perpendiculaires sur la carte. Il existe une relation directe entre ces angles et les rapports des deux facteurs d'échelle.

— whuber

8

Parce que est assez général, et le changement de similitude cosinus dépend des et et de leur relation avec , aucune formule définie n'est possible. Cependant, il existe des limites pratiquement calculables à combien la similitude cosinus peut changer . On peut les trouver en extrémisant l'angle entre et étant donné que la similitude en cosinus entre et est une valeur spécifiée, disons (où est l'angle entre et ). La réponse nous indique combien d'angle $M$ $A$ $B$ $M$ $MA$ $MB$ $A$ $B$ $\cos(2\phi)$ $2\phi$ $A$ $B$ $2\phi$ peut éventuellement être courbé par la transformation . $M$

Les calculs menacent d'être désordonnés. Certains choix astucieux de notation, ainsi que quelques simplifications préliminaires, réduisent l'effort. Il s'avère que la solution en deux dimensions révèle tout ce que nous devons savoir. Il s'agit d'un problème traitable, dépendant uniquement d'une variable réelle , qui est facilement résolu en utilisant des techniques de calcul. Un simple argument géométrique étend cette solution à n'importe quel nombre de dimensions . $\theta$ $n$

Préliminaires mathématiques

Par définition, le cosinus de l'angle entre deux vecteurs et quelconques est obtenu en les normalisant à la longueur unitaire et en prenant leur produit. Donc, $A$ $B$

\frac{A^{'} B}{\sqrt{(A^{'} A) (B^{'} B)}} = \cos (2 ϕ)

$\frac{A^\prime B}{\sqrt{(A^\prime A)\, (B^\prime B)}} = \cos(2\phi)$

et, en écrivant , le cosinus de l'angle entre les images de et sous la transformation est $\Sigma = M^\prime M$ $A$ $B$ $M$

\begin{matrix} (1) & \frac{(M A)^{'} (M B)}{\sqrt{((M A)^{'} (M A)) ((M B)^{'} (M B))}} = \frac{A^{'} Σ B}{\sqrt{(A^{'} Σ A) (B^{'} Σ B)}} . \end{matrix}

$\frac{(MA)^\prime (MB)}{\sqrt{((MA)^\prime (MA))\, ((MB)^\prime (MB))}} = \frac{A^\prime \Sigma B}{\sqrt{(A^\prime \Sigma A) (B^\prime \Sigma B)}}.\tag{1}$

Notez que seul compte dans l'analyse, $\Sigma$ pas lui-même. Nous pouvons donc exploiter la décomposition en valeurs singulières (SVD) de pour simplifier le problème. Rappelons que cela exprime comme un produit (de droite à gauche) d'une matrice orthogonale , d'une matrice diagonale et d'une autre matrice orthogonale : $M$ $M$ $M$ $V^\prime$ $D$ $U$

M = U D V^{'} .

$M = U\,D\,V^\prime.$

En d'autres termes, il existe une base de vecteurs privilégiés (les colonnes de ) sur lesquels agit en redimensionnant chaque séparément par l' entrée diagonale de (que j'appellerai ) et ensuite appliquer une rotation (ou anti-rotation) au résultat. Cette rotation finale ne changera aucune longueur ou angle et ne devrait donc pas affecter . Vous pouvez le voir formellement avec le calcul $e_1, \ldots, e_n$ $V$ $M$ $e_i$ $i^\text{th}$ $D$ $d_i$ $U$ $\Sigma$

Σ = M^{'} M = (U D V^{'})^{'} (U D V^{'}) = V D (U^{'} U) D V^{'} = V D^{2} V^{'} .

$\Sigma = M^\prime M = (U D V^\prime)^\prime (U D V^\prime) = V D (U^\prime U) D V^\prime = V D^2 V^\prime.$

Par conséquent, pour étudier nous pouvons remplacer librement par toute autre matrice qui produit les mêmes valeurs dans . En ordonnant le sorte que le diminue en taille (et en supposant que n'est pas identique à zéro), un bon choix de est $\Sigma$ $M$ $(1)$ $e_i$ $d_i$ $M$ $M$

M = \frac{1}{d_{1}} D V^{'} .

$M = \frac{1}{{d_1}} D V^\prime.$

Les éléments diagonaux de sont $(1/{d_1})D$

1 = d_{1} / d_{1} \geq λ_{2} = d_{2} / d_{1} \geq λ_{3} = d_{3} / d_{1} \geq \dots \geq λ_{n} = d_{n} / d_{1} \geq 0.

$1 = d_1/d_1 \ge \lambda_2 = d_2/{d_1} \ge \lambda_3 = d_3/{d_1} \ge \cdots \ge \lambda_n = d_n/{d_1} \ge 0.$

Plus précisément, l'effet de (que ce soit dans sa forme originale ou modifiée) sur tous les angles est complètement déterminé par le fait que $M$

M e_{i} = λ_{i} e_{i} .

$M e_i = \lambda_i e_i.$

Analyse d'un cas particulier

Soit . Parce que changer les longueurs des vecteurs ne change pas l'angle entre eux, nous pouvons supposer que et sont des vecteurs unitaires. Dans le plan, tous ces vecteurs peuvent être désignés par l'angle qu'ils font avec , ce qui nous permet d'écrire $n=2$ $A$ $B$ $e_1$

A = \cos (θ - ϕ) e_{1} + \sin (θ - ϕ) e_{2} .

$A = \cos(\theta-\phi)e_1 + \sin(\theta-\phi)e_2.$

Donc

B = \cos (θ + ϕ) e_{1} + \sin (θ + ϕ) e_{2} .

$B = \cos(\theta+\phi)e_1 + \sin(\theta+\phi)e_2.$

(Voir la figure ci-dessous.)

L'application de est simple: elle fixe les premières coordonnées de et et multiplie leurs secondes coordonnées par . Par conséquent, l'angle de à est $M$ $A$ $B$ $\lambda_2$ $MA$ $MB$

f (θ) = \arctan (λ_{2} \tan (θ + ϕ)) - \arctan (λ_{2} \tan (θ - ϕ)) .

$f(\theta) = \arctan(\lambda_2 \tan(\theta+\phi)) - \arctan(\lambda_2 \tan(\theta-\phi)).$

Parce que est une fonction continue, cette différence d'angles est une fonction continue de . En fait, c'est différentiable. Cela nous permet de trouver les angles extrêmes en inspectant les zéros de la dérivée . Cette dérivée est simple à calculer: c'est un rapport de fonctions trigonométriques. Les zéros ne peuvent apparaître que parmi les zéros de son numérateur, donc ne nous donnons pas la peine de calculer le dénominateur. On obtient $M$ $\theta$ $f^\prime(\theta)$

f^{'} (θ) = \frac{λ_{2} (1 - λ_{2}) (λ_{2} + 1) \sin (2 θ) \sin (2 ϕ)}{*} .

$f^\prime(\theta) = \frac{\lambda_2(1-\lambda_2)(\lambda_2+1)\sin(2\theta)\sin(2\phi)}{*}.$

Les cas particuliers de , et sont faciles à comprendre: ils correspondent aux situations où est de rang réduit (et écrase donc tous les vecteurs sur une ligne); où est un multiple de la matrice d'identité; et où et sont parallèles (d'où l'angle entre eux ne peut pas changer, indépendamment de ). Le cas est exclu par la condition . $\lambda_2=0$ $\lambda_2=1$ $\phi=0$ $M$ $M$ $A$ $B$ $\theta$ $\lambda_2=-1$ $\lambda_2 \ge 0$

En dehors de ces cas particuliers, les zéros ne se produisent que lorsque : c'est-à-dire ou . Cela signifie que la ligne déterminée par bissecte l'angle . Nous savons maintenant que les valeurs extrêmes de l'angle entre et doivent se situer parmi les valeurs de , alors calculons-les: $\sin(2\theta)=0$ $\theta=0$ $\theta=\pi/2$ $e_1$ $AB$ $MA$ $MB$ $f(\theta)$

\begin{aligned} f (0) & = \arctan (λ_{2} \tan (ϕ)) - \arctan (λ_{2} \tan (- ϕ)) = 2 \arctan (λ_{2} \tan (ϕ)); \\ f (π / 2) & = \arctan (λ_{2} \tan (π / 2 + ϕ)) - \arctan (λ_{2} \tan (π / 2 - ϕ)) = 2 \arctan (λ_{2} \cot (- ϕ)) . \end{aligned}

$\eqalign{ f(0) &= \arctan(\lambda_2 \tan(\phi)) - \arctan(\lambda_2 \tan(-\phi)) = 2\arctan(\lambda_2\tan(\phi)); \\ f(\pi/2) &= \arctan(\lambda_2 \tan(\pi/2+\phi)) - \arctan(\lambda_2 \tan(\pi/2-\phi)) = 2\arctan(\lambda_2\cot(-\phi)). }$

Les cosinus correspondants sont

\begin{matrix} (2) & \cos (f (0)) = \frac{1 - λ_{2}^{2} \tan (ϕ)^{2}}{1 + λ_{2}^{2} \tan (ϕ)^{2}} \end{matrix}

$\cos(f(0)) = \frac{1 - \lambda_2^2 \tan(\phi)^2}{1 + \lambda_2^2 \tan(\phi)^2}\tag{2}$

et

\begin{matrix} (3) & \cos (f (π / 2)) = \frac{1 - λ_{2}^{2} \cot (ϕ)^{2}}{1 + λ_{2}^{2} \cot (ϕ)^{2}} = \frac{\tan (ϕ)^{2} - λ_{2}^{2}}{\tan (ϕ)^{2} + λ_{2}^{2}} . \end{matrix}

$\cos(f(\pi/2)) = \frac{1 - \lambda_2^2 \cot(\phi)^2}{1 + \lambda_2^2 \cot(\phi)^2} = \frac{\tan(\phi)^2 - \lambda_2^2 }{\tan(\phi)^2 + \lambda_2^2}.\tag{3}$

Souvent, il suffit de comprendre comment déforme les angles droits. Dans ce cas, , conduisant à , que vous pouvez brancher dans les formules précédentes. $M$ $2\phi=\pi/2$ $\tan(\phi) = \cot(\phi) = 1$

Notez que plus devient petit , plus ces angles deviennent extrêmes et plus la distorsion est grande. $\lambda_2$

Cette figure montre quatre configurations des vecteurs et séparés par un angle de . Le cercle unitaire et son image elliptique sous sont ombrés pour référence (avec l'action de uniformément redimensionnée pour faire ). Les en- têtes des figures indiquent la valeur de , le point médian de et . Le plus proche de ces et peut se produire lorsqu'il est transformé par est une configuration comme celle de gauche avec $A$ $B$ $2\phi = \pi/3$ $M$ $M$ $\lambda_1=1$ $\theta$ $A$ $B$ $A$ $B$ $M$ $\theta=0$ . Le plus éloigné possible est une configuration comme celle de droite avec . Deux possibilités intermédiaires sont présentées. $\theta=\pi/2$

Solution pour toutes les dimensions

Nous avons vu comment agit en développant chaque dimension d'un facteur . Cela déformera la sphère unitaire en un ellipsoïde. Les déterminent ses axes principaux. Les sont les distances de l'origine, le long de ces axes, à l'ellipsoïde. Par conséquent, la plus petite, , est la distance la plus courte (dans toutes les directions) de l'origine à l'ellipsoïde et la plus grande, , est la distance la plus éloignée (dans toutes les directions) de l'origine à l'ellipsoïde. $M$ $i$ $\lambda_i$ $\{A\,|\, A^\prime A = 1\}$ $e_i$ $\lambda_i$ $\lambda_n$ $\lambda_1$

Dans les dimensions supérieures , et font partie d'un sous-espace bidimensionnel. cartographie le cercle unitaire de ce sous-espace à l'intersection de l'ellipsoïde avec un plan contenant et . Cette intersection, étant une distorsion linéaire d'un cercle, est une ellipse. Évidemment, la distance la plus éloignée de cette ellipse n'est pas supérieure à et la distance la plus courte n'est pas inférieure à . $n\gt 2$ $A$ $B$ $M$ $MA$ $MB$ $\lambda_1=1$ $\lambda_n$

Comme nous l'avons observé à la fin de la section précédente, la possibilité la plus extrême est lorsque et sont situés dans un plan contenant deux des pour lesquels le rapport des correspondants est aussi petit que possible. Cela se produira dans le plan . Nous avons déjà la solution pour ce cas. $A$ $B$ $e_i$ $\lambda_i$ $e_1, e_n$

Conclusions

Les extrêmes de similitude cosinus atteignables en appliquant à deux vecteurs ayant une similitude cosinus sont donnés par et . Ils sont atteints en situant et à angles égaux dans une direction dans laquelle allonge au maximum tout vecteur (comme la direction ) et en les séparant dans une direction dans laquelle allonge au minimum tout vecteur ( comme la direction ). $M$ $\cos(2\phi)$ $(2)$ $(3)$ $A$ $B$ $\Sigma=M^\prime M$ $e_1$ $\Sigma$ $e_n$

Ces extrêmes peuvent être calculées en fonction de la SVD de . $M$

— whuber
source

C'est une réponse fantastique! Merci beaucoup pour cette discussion détaillée! Je crois que vous avez une erreur de signe dans l'équation (3) où vous devriez simplement avoir un signe moins global.

— LFH

Je m'intéresse au cas où l'angle s'approche de zéro et j'aimerais obtenir une inégalité entre et . Est-il vrai que sur la base de votre calcul, j'ai juste besoin de trouver le plus extrême (qui est le plus petit) et dans ce cas, l'inégalité asymptotique est donnée par as ?

2 ϕ

$2\phi$

2 ϕ

$2\phi$

f

$f$

λ_{n}

$\lambda_n$

2 λ_{n} ϕ \leq f \leq 2 λ_{n}^{- 1} ϕ

$2\lambda_n\phi\leq f\leq 2\lambda_n^{-1}\phi$

ϕ \to 0

$\phi\to0$

— LFH

6

Vous êtes probablement intéressé par:

(M A, M B) = A^{T} (M^{T} M) B,

$(MA,MB)=A^T(M^TM)B,$

Vous pouvez diagonaliser (ou comme vous l'appelez, PCA), ce qui vous indique que la similitude de sous la transformation se comporte en projetant sur vos principaux composants, puis calculer la similitude dans ce nouvel espace. Pour étoffer cela un peu plus, laissez les composants principaux être avec des valeurs propres . alors $M^TM=U\Sigma U^T$ $A,B$ $M$ $A,B$ $u_i$ $\lambda_i$

U B = \sum_{i} (u_{i}, b_{i}) u_{i}, U A = \sum_{i} (u_{i}, a_{i}) u_{i},

$UB=\sum_i(u_i,b_i)u_i, \ UA=\sum_i(u_i,a_i)u_i,$

ce qui vous donne:

(M A, M B) = \sum_{i = 1}^{n} (u_{i}, a_{i}) (u_{i}, b_{i}) λ_{i} .

$(MA,MB)=\sum_{i=1}^n (u_i,a_i)(u_i,b_i)\lambda_i.$

Notez qu'il y a une mise à l'échelle ici: les s'étirent / se rétrécissent. Lorsque sont des vecteurs unitaires et si chaque , alors correspond à une rotation, et vous obtenez: , qui est équivaut à dire que les produits intérieurs sont invariants lors des rotations. En général, l'angle reste le même lorsque est une transformation conforme, ce qui dans ce cas nécessite que soit inversible et la décomposition polaire de satisfait avec , c'est-à-dire . $\lambda_i$ $A,B$ $\lambda_i=1$ $M$ $\mbox{sim}(MA,MB)=\mbox{sim}(A,B)$ $M$ $M$ $M$ $M=OP$ $P=aI$ $M^TM=a^2I$

— Alex R.
source

1

Votre énoncé initial du problème néglige la normalisation des vecteurs , , et nécessaires pour calculer la similitude en cosinus. Il ne semble pas non plus que l'analyse ultérieure aborde cette normalisation. Notez, en particulier, que les similitudes cosinus sont conservées même lorsque toutes les valeurs propres sont égales à une valeur (positive) qui diffère de . Cela démontre, même dans ce cas simple, que beaucoup plus peut être dit.

A

$A$

B

$B$

M A

$MA$

M B

$MB$

1

$1$

— whuber

@whuber: la similitude cosinus est conservée exactement lorsque est une transformation conforme, ce qui équivaut dans ce cas à exiger que soit inversible et , un multiple de l'identité. Autrement dit, la décomposition polaire de satisfait , où . Vous avez raison à propos de la normalisation mais, il semble idiot de parler de similitude cosinus avec les vecteurs non normalisés .

M

$M$

M

$M$

M^{T} M = a^{2} I

$M^TM=a^2I$

M

$M$

M = O P

$M=OP$

P = a I

$P=aI$

A, B

$A,B$

— Alex R.

2

Pas idiot du tout! Puisque cette "similitude" est donnée par le cosinus de l'angle entre les vecteurs, elle a du sens pour deux vecteurs non nuls quelconques. Ce que je voulais dire par « beaucoup plus peut - on dire » est que des bornes effectives sur l'angle entre les images de et peuvent être obtenus en termes de l'angle entre et et les valeurs propres de .

A

$A$

B

$B$

A

$A$

B

$B$

M

$M$

— whuber