Pourquoi LKJcorr est un bon a priori pour la matrice de corrélation?


11

Je lis le chapitre 13 "Adventures in Covariance" dans le ( superbe ) livre Statistical Rethinking de Richard McElreath où il présente le modèle hiérarchique suivant:

Modèle

( REst une matrice de corrélation)

L'auteur explique qu'il LKJcorrs'agit d'un a priori faiblement informatif qui fonctionne comme un a priori de régularisation pour la matrice de corrélation. Mais pourquoi en est-il ainsi? Quelles sont les caractéristiques de la LKJcorrdistribution qui en font un si bon a priori pour les matrices de corrélation? Quels sont les autres bons a priori utilisés en pratique pour les matrices de corrélation?

Réponses:


8

La distribution LKJ est une extension du travail de H. Joe (1). Joe a proposé une procédure pour générer des matrices de corrélation uniformément sur l'espace de toutes les matrices de corrélation définie positive. La contribution de (2) est qu'elle étend le travail de Joe pour montrer qu'il existe une manière plus efficace de générer de tels échantillons.

Le paramétrage couramment utilisé dans des logiciels tels que Stan vous permet de contrôler à quel point les matrices échantillonnées ressemblent aux matrices d'identité. Cela signifie que vous pouvez passer en douceur des matrices d'échantillonnage qui sont toutes très proches de à des matrices qui sont plus ou moins uniformes sur les matrices PD.je

Une méthode alternative d'échantillonnage à partir de matrices de corrélation, appelée méthode "oignon", se trouve dans (3). (Aucune relation avec le magazine d'actualités satiriques - probablement.)

Une autre alternative consiste à échantillonner à partir des distributions de Wishart, qui sont semi-définies positives, puis à diviser les variances pour laisser une matrice de corrélation. Le problème avec les distributions de type Wishart est que les variétés non informatives sont singulières ou numériquement singulières avec une forte probabilité, donc les méthodes d'échantillonnage sont lentes quand il est nécessaire que l'échantillon soit (numérique) non singulier.

(1) H. Joe. "Génération de matrices de corrélation aléatoires basées sur des corrélations partielles." Journal of Multivariate Analysis , 97 (2006), pp. 2177-2189

(2) Daniel Lewandowski, Dorota Kurowicka, Harry Joe. "Génération de matrices de corrélation aléatoire basées sur la vigne et la méthode de l'oignon étendu." Journal of Multivariate Analysis , Volume 100, Numéro 9, 2009, Pages 1989-2001

(3) S. Ghosh, SG Henderson. "Comportement de la méthode norta pour la génération de vecteurs aléatoires corrélés à mesure que la dimension augmente." ACM Transactions on Modeling and Computer Simulation (TOMACS), 13 (3) (2003), pp. 276-294

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.