Une telle corrélation pondérée?

J'ai quelques données intéressantes sur les artistes musicaux les plus populaires diffusées divisées par emplacement en environ 200 districts du Congrès. Je veux voir s'il est possible d'interroger une personne sur ses préférences musicales et de déterminer si elle "écoute comme un démocrate" ou "écoute comme un républicain". (Naturellement, c'est léger, mais il y a une vraie entropie dans les données!)

J'ai des données sur environ 100 artistes, plus le pourcentage moyen de votes pour les républicains et les démocrates dans chaque district au cours des trois derniers cycles électoraux. J'ai donc effectué une corrélation sur chaque artiste pour voir lesquels étaient les plus écoutés de manière disproportionnée en fonction de la part de vote des démocrates. Ces corrélations vont d'environ -0,3 à 0,3 pour un artiste donné, avec beaucoup au milieu qui ont peu ou pas de pouvoir prédictif.

J'ai deux questions: Premièrement, le nombre global de flux par district varie considérablement. En ce moment, je corrèle le pourcentage de tous les flux par district appartenant, disons, à Beyonce, avec le pourcentage de votes exprimés pour les démocrates. Mais le nombre total de flux dans un district pourrait être de plusieurs millions, tandis qu'un autre se situe dans le bas des 100 000. Dois-je pondérer la corrélation d'une manière ou d'une autre pour en tenir compte?

Deuxièmement, je suis curieux de savoir comment combiner ces corrélations en une estimation composite de la politique de l'utilisateur. Disons que je prends les 20 artistes ayant les valeurs corrélatives absolues les plus élevées (positives et négatives), dix dans chaque direction, et interroge un utilisateur sur combien il ou elle aime chaque artiste. J'ai donc des votes positifs ou négatifs sur chaque artiste, plus la corrélation avec la politique pour les 20 valeurs. Existe-t-il un moyen standard de combiner ces corrélations en une seule estimation? (Je pense à quelque chose comme le célèbre quiz dialectal des NYTimes , où il combinait les probabilités régionales pour 25 questions dans une carte de la chaleur. Mais dans ce cas, j'ai juste besoin d'une valeur unique sur la façon dont le goût de la musique démocrate ou républicain est.

Je vous remercie!

— Chris Wilson
source

La formule de corrélation de Pearson pondérée peut être facilement trouvée sur le Web , StackOverflow et Wikipedia et est implémentée dans plusieurs packages R, par exemple psych ou poids et dans le package de modèles de statistiques de Python . Il est calculé comme une corrélation régulière mais en utilisant des moyennes pondérées ,

m_{X} = \frac{\sum_{je} w_{je} X_{je}}{\sum_{je} w_{je}}, m_{Oui} = \frac{\sum_{je} w_{je} y_{je}}{\sum_{je} w_{je}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

les écarts pondérés ,

s_{X} = \frac{\sum_{je} w_{je} (X_{je} - m_{X})^{2}}{\sum_{je} w_{je}}, s_{Oui} = \frac{\sum_{je} w_{je} (y_{je} - m_{Oui})^{2}}{\sum_{je} w_{je}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

et covariance pondérée

s_{X Oui} = \frac{\sum_{je} w_{je} (X_{je} - m_{X}) (y_{je} - m_{Oui})}{\sum_{je} w_{je}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

avoir tout cela, vous pouvez facilement calculer la corrélation pondérée

ρ_{X Oui} = \frac{s_{X Oui}}{\sqrt{s_{X} s_{Oui}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

En ce qui concerne votre deuxième question, si je comprends bien, vous auriez des données sur les corrélations entre l'orientation politique et la préférence pour les vingt artistes et utilisateurs des réponses binaires sur sa préférence et vous souhaitez obtenir une sorte de mesure agrégée de celle-ci.

Commençons par les corrélations moyennes. Il existe plusieurs méthodes pour faire la moyenne des probabilités , mais il ne semble pas y avoir autant d'approches pour faire la moyenne des corrélations. Une chose qui pourrait être faite est d'utiliser la transformation Fisher $z$ comme décrit sur MathOverflow , c'est-à-dire

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Fondamentalement, la prise de tangentes de coefficients de corrélation "aplatit" les valeurs extrêmes (voir ci-dessous) afin qu'elles aient une influence moindre sur l'estimation finale et rend leur distribution plus proche de la normale. Cette procédure a également été décrite par Bushman et Wang (1995) et Corey, Dunlap et Burke (1998).

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{je} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} X_{je j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

c'est-à-dire calculer la corrélation moyenne qui inverse les signes de corrélation en conséquence pour les artistes préférés et peu aimés. En appliquant une telle procédure, vous vous retrouvez avec la «corrélation» moyenne des préférences et de l'orientation politique des utilisateurs, qui, en tant que corrélation régulière, va de à . $-1$ $1$

Mais...

Ne pensez-vous pas que tout cela est une exagération pour quelque chose qui est essentiellement un problème de régression multiple? Au lieu de cela, toute la pondération et la moyenne, vous pouvez simplement utiliser une régression multiple pondérée (linéaire ou logistique selon que vous prédisez la préférence binaire ou le degré de préférence dans l'une ou l'autre direction), où les pondérations sont basées sur la taille des sous-échantillons. Vous utiliseriez la préférence musicale pour chaque artiste comme prédicteur. À la fin, vous utiliserez la préférence de l'utilisateur pour faire des prédictions. Cette approche est plus simple et plus élégante statistiquement. Elle applique également par rapportpondération aux artistes tout en faisant la moyenne des corrélations ne corrige pas leur "impact" relatif sur la note finale. De plus, la régression prend en considération le taux de base (ou l'orientation politique par défaut), contrairement à la moyenne des corrélations. Imaginez que la grande majorité de la population préfère le parti , cela devrait vous rendre moins désireux de prédire les et les comptes de régression en incluant l'interception. Le seul problème est la multicolinéarité mais lors de la moyenne des corrélations, vous l'ignorez plutôt que de vous en occuper. $A$ $B$

Bushman, BJ et Wang, MC (1995). Une procédure pour combiner des coefficients de corrélation d'échantillon et des décomptes de votes pour obtenir une estimation et un intervalle de confiance pour le coefficient de corrélation de population. Bulletin psychologique, 117 (3), 530.

Corey, DM, Dunlap, WP et Burke, MJ (1998). Corrélations moyennes: valeurs et biais attendus dans les transformations combinées de Pearson rs et de Fisher's, The Journal of General Psychology, 125 (3), 245-261.

— Tim
source

Je vous remercie! Cela aide énormément. Accordera une prime lorsqu'elle sera disponible plus tard dans la journée.

— Chris Wilson

@Tim Comment la covariance pondérée est-elle calculée dans les cas où et ont des poids de fiabilité différents?

x_{i}

$x_i$

y_{i}

$y_i$

— Kagaratsch

@Kagaratsch Je n'ai jamais vu une telle formule. Cela constitue une belle question à poser.

— Tim