L'estimateur sans biais de la matrice de covariance de l'échantillon étant donné points de données x i ∈ R d est C = 1nxi∈Rdoù ˉ x =∑xi/nest la moyenne sur tous les points. Notons(x
C=1n−1∑i=1n(xi−x¯)(xi−x¯)⊤,
x¯=∑xi/n comme
z i . Le
1(xi−x¯)zi facteur
n - 1 ne change pas le rang, et chaque terme de la somme a (par définition) le rang
1, donc le cœur de la question est le suivant:
1n−11
Pourquoi a-t-il le rangn-1et non le rangn, comme il semblerait parce que nous additionnonsnmatrices derang1?∑ziz⊤in−1nn1
La réponse est que cela se produit parce que ne sont pas indépendants. Par construction, ∑ z i = 0 . Donc, si vous connaissez n - 1 de z i , alors le dernier z n restant est complètement déterminé; nous ne sommes pas sommateur n rank- indépendantes 1 matrices, nous sommateur seulement n - 1 rank- indépendants 1 matrices, puis en ajoutant une plus rank- 1 matrice qui est entièrement linéaire déterminée par le reste. Ce dernier ajout ne modifie pas le classement général.zi∑zi=0n−1ziznn1n−111
Nous pouvons voir cela directement si nous réécrivons comme z n = - n - 1 ∑ i = 1 z i , et maintenant nous le connectons à l'expression ci-dessus: n ∑ i = 1 z i z ⊤ i = n - 1 ∑ i = 1 z i z ⊤ i + ( - n - 1 ∑ i = 1∑zi=0
zn=−∑i=1n−1zi,
∑i=1nziz⊤i=∑i=1n−1ziz⊤i+(−∑i=1n−1zi)z⊤n=∑i=1n−1zi(zi−zn)⊤.
n−1n−1
1n−11n
n−1x¯