Comment calculer la corrélation entre / au sein de groupes de variables?


13

J'ai une matrice de 1000 observations et 50 variables mesurées chacune sur une échelle de 5 points. Ces variables sont organisées en groupes, mais il n'y a pas un nombre égal de variables dans chaque groupe.

Je voudrais calculer deux types de corrélations:

  1. Corrélation au sein des groupes de variables (entre les caractéristiques): une mesure permettant de savoir si les variables au sein du groupe de variables mesurent la même chose.
  2. Corrélation entre les groupes de variables: une certaine mesure, en supposant que chaque groupe reflète un trait global, de la façon dont chaque trait (groupe) est lié à tous les autres traits.

Ces caractéristiques ont été précédemment classées en groupes. Je suis intéressé à trouver la corrélation entre les groupes - c'est-à-dire en supposant que les caractéristiques à l'intérieur du groupe mesurent le même trait sous-jacent (ayant complété # 1 ci-dessus - alpha de Cronbach), les traits eux-mêmes sont-ils liés?

Quelqu'un a-t-il des suggestions par où commencer?


1
Si vous êtes familier avec R, il existe un package veganavec des fonctions anosimou de préférence, adonis(MANOVA permutationnelle).
Roman Luštrik

J'ai mis à jour votre question pour essayer d'utiliser une terminologie standard (c.-à-d. Des variables et non des caractéristiques; des groupes de variables plutôt que des "groupes")
Jeromy Anglim

Réponses:


16

Ce que @rolando a suggéré ressemble à un bon début, sinon la réponse entière (IMO). Permettez-moi de poursuivre l'approche corrélationnelle, en suivant le cadre de la théorie des tests classiques (CTT). Ici, comme l'a noté @Jeromy, une mesure récapitulative pour votre groupe de caractéristiques peut être considérée comme le score total (ou somme) de tous les éléments (une caractéristique, selon vos mots) appartenant à ce que je vais maintenant appeler une échelle. Sous CTT, cela nous permet de formaliser la propension ou la responsabilité individuelle de «trait» comme emplacement sur une échelle continue reflétant une construction sous-jacente (un trait latent), bien qu'ici ce ne soit qu'une échelle ordinale (mais c'est un autre débat dans la littérature sur la psychométrie) .

Ce que vous avez décrit a à voir avec ce qui est connu comme convergent (dans quelle mesure les éléments appartenant à la même échelle sont en corrélation les uns avec les autres) et discriminant (les éléments appartenant à différentes échelles ne devraient pas être corrélés dans une large mesure) validité en psychométrie. Les techniques classiques comprennent l'analyse multi-trait multi-méthode (MTMM) (Campbell & Fiske, 1959). Une illustration de son fonctionnement est présentée ci-dessous (trois méthodes ou instruments, trois constructions ou traits):

entrez la description de l'image ici

>0,7<.3

Même si cette méthode a été initialement développée pour évaluer la validité convergente et discriminante d'un certain nombre de traits étudiés par différents instruments de mesure, elle peut être appliquée pour un seul instrument multi-échelles. Les traits deviennent alors les éléments, et les méthodes ne sont que les différentes échelles. Une généralisation de cette méthode à un seul instrument est également connue sous le nom d'échelle multitrait . Les éléments corrélés comme prévu (c.-à-d. Avec leur propre échelle plutôt qu'une échelle différente) sont comptés comme des succès d'échelle. Cependant, nous supposons généralement que les différentes échelles ne sont pas corrélées, c'est-à-dire qu'elles visent différentes constructions hypothétiques. Mais la moyenne des corrélations à l'intérieur et entre les échelles fournit un moyen rapide de résumer la structure interne de votre instrument. Une autre façon pratique de le faire est d'appliquer une analyse de cluster sur la matrice des corrélations par paires et de voir comment vos variables se tiennent ensemble.

À noter, dans les deux cas, les mises en garde habituelles de travailler avec des mesures de corrélation s'appliquent, c'est-à-dire que vous ne pouvez pas tenir compte des erreurs de mesure, vous avez besoin d'un grand échantillon, les instruments ou les tests sont supposés être "parallèles" (équivalence tau, erreurs non corrélées, variances d'erreur égales).

La deuxième partie abordée par @rolando est également intéressante: s'il n'y a aucune indication théorique ou substantielle que le regroupement déjà établi est logique, alors vous devrez trouver un moyen de mettre en évidence la structure de vos données avec, par exemple, une analyse factorielle exploratoire . Mais même si vous faites confiance à ces "caractéristiques au sein d'un groupe", vous pouvez vérifier qu'il s'agit d'une hypothèse valable. Vous pouvez maintenant utiliser le modèle d'analyse factorielle confirmatoire pour vérifier que le modèle de chargement des articles (corrélation d'un article avec sa propre échelle) se comporte comme prévu.

Au lieu des méthodes d'analyse factorielle traditionnelles, vous pouvez également jeter un coup d'œil au regroupement d'éléments (Revelle, 1979) qui s'appuie sur une règle de fractionnement alpha de Cronbach pour regrouper les éléments en échelles homogènes.

Un dernier mot: si vous utilisez R, il existe deux très beaux packages qui faciliteront les étapes susmentionnées:

  • Psych , vous offre tout ce dont vous avez besoin pour commencer avec des méthodes psychométriques, y compris l' analyse des facteurs ( fa, fa.parallel, principal), éléments de clustering ( ICLUSTet méthodes connexes), alpha (Cronbach alpha); il y a une belle vue d' ensemble sur le site Web de William Revelle, en particulier une introduction à la théorie psychométrique avec des applications en R .
  • psy , inclut également la visualisation ( scree.plot) via un aperçu ( via PCA + jeux de données simulés ) et MTMM ( mtmm).

Les références

  1. Campbell, DT et Fiske, DW (1959). Validation convergente et discriminante par la matrice multitrait-multiméthode. Bulletin psychologique , 56: 81–105.
  2. Hays, RD et Fayers, P. (2005). Évaluation des échelles multi-items. Dans Évaluation de la qualité de vie dans les essais cliniques , (Fayers, P. et Hays, R., Eds.), Pp. 41-53. Oxford.
  3. Revelle, W. (1979). Analyse de cluster hiérarchique et structure interne des tests. Multivariate Behavioral Research , 14: 57-74.

C'est peut-être la réponse la plus intéressante que j'ai lue sur l'un des échanges et j'étudie l'économétrie depuis 5 ans.
d8aninja

La matrice MTMM incluse ici est-elle censée être un exemple réaliste de matrice de corrélation? Si c'est le cas, je noterai qu'il ne s'agit pas en fait d'une matrice semi-définie positive: par exemple, le mineur 4 par 4 pour les corrélations des traits 1,2 entre les méthodes 1,2 a le déterminant -0.0419179. (Puisqu'il s'agit d'une petite valeur négative, cela va peut-être simplement à votre point re: «erreur de mesure».)
Semi

7

La façon dont je lis votre terminologie, ce que vous voulez, c'est d'abord d'évaluer la cohérence interne au sein de chaque groupe de variables, puis d'évaluer les corrélations entre les scores d'échelle qui constituent la moyenne de chaque groupe de variables. Le premier peut être fait en utilisant l'alpha de Cronbach, et le second en utilisant la corrélation de Pearson. Cela suppose que vous avez des distributions raisonnablement normales et des relations raisonnablement linéaires.

Une méthode plus complexe, et pas nécessairement obligatoire, consisterait à effectuer une analyse factorielle exploratoire. Vous tenteriez d'établir quelles variables devraient être regroupées, puis à nouveau dans quelle mesure ces facteurs seraient corrélés. Si vous essayez cette méthode, assurez-vous d'utiliser une rotation oblique pour permettre à ces corrélations de s'afficher. Que vous utilisiez l'extraction des composantes principales ou l'extraction de l'axe principal dépendra respectivement du fait que vos variables sont des mesures objectives, sans erreur ou subjectives telles que des éléments d'enquête qui contiennent une certaine quantité d'erreur.


Merci pour votre réponse. J'ai réussi à calculer l'alpha de Cronbach, mais comment calculer les coefficients de corrélation de Pearson dans ce cas? Je pourrais les calculer par paire pour chaque caractéristique individuelle, mais j'aimerais savoir comment calculer les corrélations entre les groupes de caractéristiques. Les caractéristiques d'un groupe auront des scores similaires pour chaque observation. Je vais modifier ma question pour que ce soit un peu plus clair.
blép

5
  • Les outils standard, au moins en psychologie, dans votre situation seraient une analyse factorielle exploratoire et confirmatoire pour évaluer la convergence de la matrice de corrélation inter-items avec un modèle proposé de la relation entre les facteurs et les items. La façon dont vous avez formulé votre question suggère que vous ne connaissez peut-être pas cette documentation. Par exemple, voici mes notes sur la construction de l' échelle et l'analyse factorielle et voici un tutoriel en R sur le formulaire d'analyse factorielle Quick-R . Ainsi, bien qu'il soit utile de répondre à votre question spécifique, je pense que vos objectifs plus larges seront mieux servis en examinant les approches analytiques factorielles pour évaluer les échelles multi-éléments et multi-facteurs.

  • Une autre stratégie standard consisterait à calculer les scores totaux pour chaque groupe de variables (ce que j'appellerais une «échelle») et à corréler les échelles.

  • De nombreux outils d'analyse de fiabilité indiqueront la corrélation moyenne entre les éléments.

  • Si vous avez créé la matrice de corrélations 50 x 50 entre les éléments, vous pouvez écrire une fonction dans R qui a fait la moyenne des sous-ensembles en fonction de combinaisons de groupes de variables. Vous pourriez ne pas obtenir ce que vous voulez si vous avez un mélange d'éléments positifs et négatifs, car les corrélations négatives peuvent annuler les corrélations positives.


2

Je proposerais d'utiliser comme substitut à la notion de corrélation, qui n'est définie que par paire, la notion d'information mutuelle et d'intégration dans les modèles gaussiens.

Dans les modèles gaussiens, intégration d'un groupe de variablesg1 est définie comme l'entropie du groupe:

je1log(|C1|)

C1 est la matrice de corrélation du groupe de variables g1. Il est facile de voir que sig1 ne comprend que 2 variables, son intégration est log(1-ρ2), qui se rapporte directement au coefficient de corrélation par paire des variables ρ.

Pour calculer l'interaction entre deux groupes de variables, vous pouvez utiliser des informations mutuelles, qui ne sont que de l'entropie croisée entre les groupes:

MU12=je12-je1-je2

J'ai trouvé une référence sur ces notions après un rapide google qui pourrait être utile.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.