Les matrices de covariance et de corrélation et / ou leurs inverses ont-elles des interprétations utiles?


9

Tout en apprenant à calculer les matrices de covariance et de corrélation et leurs inverses en VB et T-SQL il y a quelques années, j'ai appris que les différentes entrées ont des propriétés intéressantes qui peuvent les rendre utiles dans les bons scénarios d'exploration de données. Un exemple évident est la présence de variances sur les diagonales des matrices de covariance; quelques exemples moins évidents que je n'ai pas encore utilisés, mais qui pourraient être utiles à un moment donné, sont les facteurs d'inflation de la variance dans les matrices de corrélation inverse et les corrélations partielles dans les matrices de covariance inverse.

Une chose que je n'ai pas encore vu directement abordée dans la littérature, cependant, est de savoir comment interpréter les déterminants de ces matrices. Étant donné que les déterminants sont souvent calculés pour d'autres types de matrices, je m'attendais à trouver une multitude d'informations à leur sujet, mais je me suis très peu retrouvé dans les recherches occasionnelles à la fois sur les forums StackExchange et sur le reste d'Internet. La plupart des mentions que j'ai rencontrées tournent autour de l'utilisation des déterminants comme une seule étape dans le processus de calcul d'autres tests et algorithmes statistiques, tels que l'analyse des composants principaux (ACP) et l'un des tests de Hotelling; aucun ne traite directement de la façon d'interpréter ces déterminants, par eux-mêmes. Y a-t-il une raison pratique pour laquelle elles ne sont pas souvent discutées dans la littérature sur l'exploration de données? Plus important, Fournissent-ils des informations utiles de manière autonome et si oui, comment pourrais-je interpréter les déterminants de chacun? Je me rends compte que les déterminants sont un type de volume signé induit par une transformation linéaire, donc je soupçonne que les déterminants de ces déterminants particuliers pourraient signifier une sorte de mesure volumétrique de covariance ou de corrélation, etc. sur un ensemble entier, ou quelque chose à cet effet ( par opposition à la covariance et à la corrélation ordinaires, qui sont entre deux attributs ou variables). Cela soulève également la question du type de volume que leurs inverses représenteraient. Je ne suis pas assez familier avec le sujet ou les mathématiques des matrices lourdes impliquées pour spéculer davantage, mais je suis capable de coder les quatre types de matrices et leurs déterminants. Ma question n'est pas pressante, mais à long terme, je devrai prendre des décisions sur l'opportunité d'inclure régulièrement ces matrices et leurs déterminants dans mes processus d'exploration de données. Il est moins cher de simplement calculer la covariance et la corrélation de manière individuelle et bivariée dans ces langues particulières, mais je vais faire un effort supplémentaire et mettre en œuvre des calculs déterminants si je peux obtenir des informations plus approfondies qui justifient les dépenses en termes de ressources de programmation. Merci d'avance. Je vais aller plus loin et mettre en œuvre des calculs déterminants si je peux en tirer des informations plus approfondies qui justifient les dépenses en termes de ressources de programmation. Merci d'avance. Je vais aller plus loin et mettre en œuvre des calculs déterminants si je peux en tirer des informations plus approfondies qui justifient les dépenses en termes de ressources de programmation. Merci d'avance.


qu'entendez-vous par covariance ou corrélation ordinaire?
Subhash C. Davar

Réponses:


10

J'ai pu concocter quelques principes généraux, des cas d'utilisation et des propriétés de ces matrices à partir d'un ensemble de sources décousues; peu d'entre eux traitent directement de ces sujets, la plupart étant simplement mentionnés en passant. Étant donné que les déterminants représentent des volumes signés, je m'attendais à ce que ceux qui se rapportent à ces quatre types de matrices se traduisent par des mesures d'association multidimensionnelles d'une certaine sorte; cela s'est avéré être vrai dans une certaine mesure, mais certains d'entre eux présentent des propriétés intéressantes:

Matrices de covariance:

• Dans le cas d'une distribution gaussienne, le déterminant mesure indirectement l'entropie différentielle, qui peut être interprétée comme la dispersion des points de données sur le volume de la matrice. Voir la réponse de tmp sur Que donne le déterminant de la matrice de covariance ? pour plus de détails.

• La réponse d'Alexander Vigodner dans le même fil dit qu'il possède également la propriété de positivité.

• Le déterminant de la matrice de covariance peut être interprété comme une variance généralisée. Voir le NIST Statistics Handbook page 6.5.3.2. Déterminant et structure propre .

Matrices de covariance inverse:

• Il est équivalent à l'inverse de la variance généralisée que représente le déterminant de la matrice de covariance; maximiser le déterminant de la matrice de covariance inverse peut apparemment être utilisé comme substitut pour calculer le déterminant de la matrice d'information de Fisher, qui peut être utilisé pour optimiser la conception de l'expérience. Voir la réponse de kjetil b halvorsen au fil de discussion Déterminant des informations Fisher

Matrices de corrélation:

• Ceux-ci sont beaucoup plus intéressants que les déterminants de la matrice de covariance, dans la mesure où le volume de corrélation diminue à mesure que le déterminant approche 1 et augmente à mesure que ce dernier approche 0. C'est l'opposé des coefficients de corrélation ordinaires, dans lesquels des nombres plus élevés indiquent une corrélation positive plus élevée. "Le déterminant de la matrice de corrélation ne sera égal à 1,0 que si toutes les corrélations sont égales à 0, sinon le déterminant sera inférieur à 1. N'oubliez pas que le déterminant est lié au volume de l'espace occupé par l'essaim de points de données représentés par des scores standard sur Lorsque les mesures ne sont pas corrélées, cet espace est une sphère d'un volume de 1. Lorsque les mesures sont corrélées, l'espace occupé devient un ellipsoïde dont le volume est inférieur à 1. " Voircet ensemble de notes de cours Tulane et cette page Quora .

• Une autre citation pour ce comportement inattendu: "Le déterminant d'une matrice de corrélation devient nul ou proche de zéro lorsque certaines des variables sont parfaitement corrélées ou fortement corrélées entre elles." Voir la question de Rakesh Pandey Comment gérer le problème du déterminant proche de zéro dans la fiabilité informatique à l'aide de SPSS?

• Une troisième référence: "Avoir un très petit det (R) signifie seulement que vous avez des variables qui sont presque linéairement dépendantes." Réponse de Carlos Massera Filho à ce sujet CrossValidated.

• Les déterminants suivent également une échelle de 0 à 1, qui diffère à la fois de l'échelle -1 à 1 que suivent les coefficients de corrélation. Ils n'ont pas non plus le signe qu'un déterminant ordinaire peut montrer en exprimant l'orientation d'un volume. La question de savoir si le déterminant de corrélation représente toujours une certaine notion de directionnalité n'a été abordée dans aucune des publications que j'ai trouvées.

Matrices de corrélation inverse:

• Une recherche Google pour les termes combinés «matrice de corrélation inverse» et «déterminant» n'a abouti qu'à 50 hits, donc apparemment ils ne sont pas couramment appliqués au raisonnement statistique.

• Apparemment, la minimisation du déterminant de corrélation inverse peut être utile dans certaines situations, étant donné qu'il existe un brevet pour l'annulation d'écho utilisant des filtres adaptatifs qui contient une procédure de régularisation conçue pour cela. Voir p. 5 dans ce document de brevet .

• p. 5 de Robust Technology with Analysis of Interference in Signal Processing (disponible sur les aperçus de Google Books) de Telman Aliev semble suggérer que la "mauvaise stipulation" d'une matrice de corrélation est liée à l'instabilité du déterminant des matrices de corrélation inverse. En d'autres termes, les changements sauvages de son déterminant proportionnellement à de petits changements dans ses éléments constitutifs sont liés à la quantité d'informations capturées par les matrices de corrélation.

Il peut y avoir d'autres propriétés et cas d'utilisation de ces déterminants non répertoriés ici; Je vais simplement les poster dans un souci d'exhaustivité et pour répondre à la question que j'ai posée, au cas où quelqu'un d'autre se heurterait à des utilisations pratiques de ces interprétations (comme je l'ai fait avec les déterminants de corrélation).


J'attendrai encore un peu avant d'accepter ma propre réponse, dans l'espoir qu'une personne plus qualifiée viendra et fournira une meilleure réponse.
SQLServerSteve

3
Bonne réponse! J'ajouterais que les détéminants peuvent être utilisés dans les "a priori de la diversité", c'est-à-dire pour encourager les modèles de variables latentes à ne pas s'effondrer en optima locaux de merde où plusieurs variables latentes sont identiques. Par exemple: papers.nips.cc/paper/…
eric_kernfeld

Merci :) Peut-être devrais-je ajouter votre commentaire à la réponse (avec crédit bien sûr) après avoir lu ce document? Je ne suis pas à la hauteur des prieurs bayésiens, donc cela peut me prendre un peu de temps à digérer.
SQLServerSteve

J'ai accepté ma propre réponse, mais je ne l'accepterai pas si une meilleure réponse est publiée. J'aimerais encore plus de commentaires sur ces interprétations.
SQLServerSteve
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.