Existe-t-il une interprétation intuitive de pour une matrice de données ?

107

Pour une matrice de données donnée (avec des variables dans des colonnes et des points de données dans des lignes), il semble que joue un rôle important dans les statistiques. Par exemple, il s’agit d’une partie importante de la solution analytique des moindres carrés ordinaires. Ou, pour la PCA, ses vecteurs propres sont les principales composantes des données. $A$ $A^TA$

Je comprends comment calculer , mais je me demandais s’il existait une interprétation intuitive de ce que cette matrice représente, ce qui conduit à son rôle important? $A^TA$

matrix covariance-matrix correlation-matrix

— Alec
source

2

L'analyse de stats.stackexchange.com/a/66295/919 pourrait permettre une certaine intuition .

— whuber

125

Géométriquement, la matrice est appelée matrice de produits scalaires (= produits scalaires , = produits internes). Algébriquement, on l'appelle matrice de somme de carrés et de produits croisés ( SSCP ). $\bf A'A$

Son ème élément diagonal est égal à , où dénote des valeurs dans la ème colonne de et est la somme des lignes. Le -thème élément non diagonal qui s'y trouve est . $i$ $\sum a_{(i)}^2$ $a_{(i)}$ $i$ $\bf A$ $\sum$ $ij$ $\sum a_{(i)}a_{(j)}$

Il existe un certain nombre de coefficients d'association importants et leurs matrices carrées sont appelées similitudes angulaires ou ressemblances de type SSCP:

En divisant la matrice SSCP par , la taille de l’échantillon ou le nombre de lignes de , vous obtenez la matrice MSCP (moyenne-carré-et-produit croisé). La formule paire de cette mesure d'association est donc (avec les vecteurs et étant une paire de colonnes de ). $n$ $\bf A$ $\frac{\sum xy}{n}$ $x$ $y$ $\bf A$
Si vous centrez colonnes (variables) de , puis est la dispersion matrice (ou co-dispersion, si être rigoureux) et est la covariance matrice. La formule de covariance par est avec et désignant des colonnes centrées. $\bf A$ $\bf A'A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum c_xc_y}{n-1}$ $c_x$ $c_y$
Si vous z- standardisez les colonnes de (soustrayez la moyenne de colonne et divisez par l'écart type), alors est la matrice de corrélation de Pearson : la corrélation est la covariance pour les variables normalisées. La formule de corrélation par est avec et désignant des colonnes normalisées. La corrélation est aussi appelée coefficient de linéarité. $\bf A$ $\mathbf {A'A}/(n-1)$ $\frac{\sum z_xz_y}{n-1}$ $z_x$ $z_y$
Si vous unitéz les colonnes de échelle (portez leur SS, somme de carrés, à 1), alors est la matrice de similarité cosinus . La formule paire équivalente semble donc être avec et désignant des colonnes normalisées L2 . La similarité des cosinus est également appelée coefficient de proportionnalité. $\bf A$ $\bf A'A$ $\sum u_xu_y = \frac{\sum{xy}}{\sqrt{\sum x^2}\sqrt{\sum y^2}}$ $u_x$ $u_y$
Si vous centrez et unités de compte échelle colonnes , puis est à nouveau la Pearson corrélation matrice, car la corrélation est cosinus pour les variables centrées : $\bf A$ $\bf A'A$ $^{1,2}$ $\sum cu_xcu_y = \frac{\sum{c_xc_y}}{\sqrt{\sum c_x^2}\sqrt{\sum c_y^2}}$

A côté de ces quatre mesures d'association principales, citons encore une autre, également basée sur , pour couronner le tout. Elles peuvent être considérées comme des mesures alternatives à la similarité cosinus car elles adoptent une normalisation différente, le dénominateur de la formule: $\bf A'A$

Le coefficient d' identité [Zegers & ten Berge, 1985] a son dénominateur sous la forme de moyenne arithmétique plutôt que moyenne géométrique: . Il peut être 1 si et seulement si les colonnes comparées de sont identiques. $\frac{\sum{xy}}{(\sum x^2+\sum y^2)/2}$ $\bf A$
Un autre coefficient utilisable s'appelle le taux de similarité : . $\frac{\sum{xy}}{\sum x^2 + \sum y^2 -\sum {xy}} = \frac{\sum{xy}}{\sum {xy} + \sum {(x-y)^2}}$
Enfin, si les valeurs dans sont non négatives et que leur somme dans les colonnes est 1 (par exemple, elles sont des proportions), alors est la matrice de fidélité ou le coefficient de Bhattacharyya . $\bf A$ $\bf \sqrt {A}'\sqrt A$

$^1$ Une façon également de calculer la matrice de corrélation ou de covariance, utilisée par de nombreux progiciels statistiques, contourne le centrage des données et sort directement de la matrice SSCP cette façon. Soit le vecteur ligne de la somme des colonnes des données tandis que est le nombre de lignes des données. Ensuite, (1) calculez la matrice de dispersion comme [puis, sera la matrice de covariance]; (2) la diagonale de est la somme des déviations au carré, vecteur de ligne ; (3) calculer la matrice de corrélation . $\bf A'A$ $\bf s$ $\bf A$ $n$ $\bf C = A'A-s's/ \it n$ $\mathbf C/(n-1)$ $\bf C$ $\bf d$ $\bf R=C/\sqrt{d'd}$

$^2$ Un lecteur pointu mais statistiquement novice pourrait trouver difficile de concilier les deux définitions de corrélation - en tant que "covariance" (ce qui inclut la moyenne par taille d’échantillon, la division par df = "n-1") et en tant que "cosinus" (ce qui implique pas de moyenne). Mais en réalité, aucune moyenne réelle dans la première formule de corrélation n'a lieu. La chose est que st. la déviation, par laquelle la standardisation z était atteinte, avait été à son tour calculée avec la division par ce même df ; et ainsi le dénominateur "n-1" dans la formule de corrélation-covariance est entièrement annulé si vous déroulez la formule: la formule devient la formule de cosinus . Pour calculer une valeur de corrélation empirique, vous n'avez vraiment pas besoin de savoir $n$ (sauf en calculant la moyenne, au centre).

— tnphns
source

42

La matrice contient tous les produits scalaires de toutes les colonnes . La diagonale contient donc les normes au carré des colonnes. Si vous pensez à la géométrie et aux projections orthogonales sur l'espace des colonnes couvert par les colonnes de rappelez-vous que les normes et les produits internes des vecteurs couvrant cet espace jouent un rôle central dans le calcul de la projection. La régression par les moindres carrés ainsi que les composantes principales peuvent être comprises en termes de projections orthogonales. $A^TA$ $A$ $A$

Notez également que si les colonnes de sont orthonormées, formant ainsi une base orthonormée pour l'espace des colonnes, alors la matrice d'identité. $A$ $A^TA = I$ $-$

— NRH
source

39

@NRH a donné une bonne réponse technique.

Si vous voulez quelque chose de vraiment basique, vous pouvez considérer comme l’équivalent matriciel de pour un scalaire. $A^TA$ $A^2$

— Peter Flom
source

5

Bien que d'autres réponses soient plus "techniquement" correctes, c'est la réponse la plus intuitive.

— CatsLoveJazz

3

Une vue importante de la géométrie de est la suivante (le point de vue est fortement souligné dans le livre de Strang sur "l'Algèbre linéaire et ses applications"): Supposons que A soit une du rang k, représentant une carte linéaire . Laissez Col (A) et la ligne (A) la colonne et les espaces mitoyens de . ensuite $A'A$ $m \times n$ $A: R^n \rightarrow R^m$ $A$

(a) En tant que vraie matrice symétrique, a une base de vecteurs propres avec des valeurs propres non nulles . Ainsi: $(A'A): R^n \rightarrow R^n$ $\{e_1,..., e_n\}$ $d_1,\ldots,d_k$

$(A'A)(x_1e_1 + \ldots + x_ne_n) = d_1x_1e_1 + ... + d_kx_ke_k$ .

(b) Gamme (A) = Col (A), par définition de Col (A). Donc, A | Row (A) mappe Row (A) en Col (A).

(c) Le noyau (A) est le complément orthogonal de la rangée (A). En effet, la multiplication de matrice est définie en termes de produits scalaires (rangée i) * (col j). (Donc, $Av'= 0 \iff \text{v is in Kernel(A)} \iff v \text{is in orthogonal complement of Row(A)}$

(d) et est un isomorphisme . $A(R^n)=A(\text{Row}(A))$ $A|\text{Row(A)}:\text{Row(A)} \rightarrow Col(A)$

Reason: If v = r+k (r \in Row(A), k \in Kernel(A),from (c)) then
A(v) = A(r) + 0 = A(r) where A(r) = 0 <==> r = 0$.

[Incidemment, donne la preuve que le rang de la ligne = le rang de la colonne!]

(e) Appliquer (d), est un isomorphisme $A'|:Col(A)=\text{Row(A)} \rightarrow \text{Col(A')}=\text{Row(A)}$

(f) En (d) et (e): et A'A mappent la ligne (A) de manière isomorphe sur la ligne (A). $A'A(R^n) = \text{Row(A)}$

— Marshall M. Cohen
source

2

Vous pouvez inclure une formule dans $ et $ pour obtenir .

L A T E X

$\LaTeX$

— Placidia le

2

Bien qu'il ait déjà été expliqué que a le sens de prendre des produits scalaires, je n’ajouterais qu’une représentation graphique de cette multiplication. $\textbf{A}^T\textbf{A}$

En effet, alors que les lignes de la matrice (et les colonnes de la matrice ) représentent des variables, nous traitons chaque mesure de variable comme un vecteur multidimensionnel. Multiplier la ligne de avec la colonne de équivaut à prendre le produit scalaire de deux vecteurs: - le résultat étant l'entrée à la position à l'intérieur de la matrice . $\textbf{A}^T$ $\textbf{A}$ $row_p$ $\textbf{A}^T$ $col_p$ $\textbf{A}$ $dot(row_p, col_p)$ $(p,p)$ $\textbf{A}^T \textbf{A}$

De la même manière, multiplier la ligne de avec la colonne de équivaut au produit du point: , avec le résultat à la position . $p$ $\textbf{A}^T$ $k$ $\textbf{A}$ $dot(row_p, col_k)$ $(p,k)$

L'entrée de la matrice résultante a la signification de combien le vecteur est dans la direction du vecteur . Si le produit scalaire des deux vecteurs et est différent de zéro, certaines informations relatives à un vecteur sont portées par un vecteur et inversement. $(p, k)$ $\textbf{A}^T\textbf{A}$ $row_p$ $col_k$ $row_i$ $col_j$ $row_i$ $col_j$

Cette idée joue un rôle important dans l’analyse en composantes principales, dans laquelle nous voulons trouver une nouvelle représentation de notre matrice de données initiale sorte qu’il n’y ait plus d’informations sur une colonne dans une autre colonne . En étudiant PCA plus en profondeur, vous verrez qu’une "nouvelle version" de la matrice de covariance est calculée et qu’elle devient une matrice diagonale que je vous laisse réaliser que ... c’est bien ce que j’ai exprimé dans la phrase précédente. $\textbf{A}$ $i$ $j \neq i$

— camillejr
source

1

Il y a des niveaux d'intuition. Pour ceux qui connaissent la notation matricielle instatistique, l’intuition est de la considérer comme un carré de la variable aléatoire: vs $x\to E[x^2]$ $A\to A^TA$

En notation matricielle, un échantillon de la variable aléatoire observations ou une population sont représentés par un vecteur colonne: $x$ $x_i$

a = [\begin{matrix} x_{1} \\ x_{2} \\ \dots \\ x_{n} \end{matrix}]

$a=\begin{bmatrix} x_1 \\ x_2 \\ \dots \\ x_n \end{bmatrix}$

Donc, si vous voulez obtenir un échantillon de moyenne du carré de la variable , vous obtenez simplement un produit scalaire , qui est identique à la notation matricielle . $x$

\bar{x^{2}} = \frac{a \cdot a}{n}

$\bar{x^2}=\frac{a\cdot a} n$

A^{T} A

$A^TA$

Remarquez que si la moyenne d'échantillon de la variable est ZERO, la variance est égale à la moyenne du carré: ce qui est analogue à . C’est la raison pour laquelle, dans l’ACP, vous avez besoin de la moyenne nulle, et pourquoi apparaît, après tout l’ACP consiste à décomposer la matrice de variance de l’ensemble de données. $\sigma^2=E[x^2]$ $A^TA$ $A^TA$

— Aksakal
source