J'ai quelques données intéressantes sur les artistes musicaux les plus populaires diffusées divisées par emplacement en environ 200 districts du Congrès. Je veux voir s'il est possible d'interroger une personne sur ses préférences musicales et de déterminer si elle "écoute comme un démocrate" ou "écoute comme un républicain". (Naturellement, c'est léger, mais il y a une vraie entropie dans les données!)
J'ai des données sur environ 100 artistes, plus le pourcentage moyen de votes pour les républicains et les démocrates dans chaque district au cours des trois derniers cycles électoraux. J'ai donc effectué une corrélation sur chaque artiste pour voir lesquels étaient les plus écoutés de manière disproportionnée en fonction de la part de vote des démocrates. Ces corrélations vont d'environ -0,3 à 0,3 pour un artiste donné, avec beaucoup au milieu qui ont peu ou pas de pouvoir prédictif.
J'ai deux questions: Premièrement, le nombre global de flux par district varie considérablement. En ce moment, je corrèle le pourcentage de tous les flux par district appartenant, disons, à Beyonce, avec le pourcentage de votes exprimés pour les démocrates. Mais le nombre total de flux dans un district pourrait être de plusieurs millions, tandis qu'un autre se situe dans le bas des 100 000. Dois-je pondérer la corrélation d'une manière ou d'une autre pour en tenir compte?
Deuxièmement, je suis curieux de savoir comment combiner ces corrélations en une estimation composite de la politique de l'utilisateur. Disons que je prends les 20 artistes ayant les valeurs corrélatives absolues les plus élevées (positives et négatives), dix dans chaque direction, et interroge un utilisateur sur combien il ou elle aime chaque artiste. J'ai donc des votes positifs ou négatifs sur chaque artiste, plus la corrélation avec la politique pour les 20 valeurs. Existe-t-il un moyen standard de combiner ces corrélations en une seule estimation? (Je pense à quelque chose comme le célèbre quiz dialectal des NYTimes , où il combinait les probabilités régionales pour 25 questions dans une carte de la chaleur. Mais dans ce cas, j'ai juste besoin d'une valeur unique sur la façon dont le goût de la musique démocrate ou républicain est.
Je vous remercie!