C'est probablement une question très fondamentale, mais je ne semble pas être en mesure d'y trouver une réponse solide. J'espère ici, je peux.
Je lis actuellement des articles en préparation de ma propre thèse de maîtrise. Actuellement, je lis un article qui étudie la relation entre les tweets et les caractéristiques du marché boursier.
Dans l'une de leurs hypothèses, ils proposent que "l'augmentation du volume des tweets soit associée à une augmentation du volume des échanges".
Je m'attendrais à ce qu'ils, dans les corrélations par paires, soient en corrélation tweetVolume
avec tradingVolume
, mais à la place ils signalent utiliser les versions enregistrées: LN(tweetVolume)
et LN(tradingVolume)
.
Pour ma thèse, j'ai reproduit ce bout de papier. J'ai collecté des tweets sur une centaine d'entreprises pendant plus de 6 mois ( tweetVolume
) et un volume de transactions boursières pour la même période. Si je corrèle les variables absolues, je trouve r=.282, p.000
mais quand j'utilise les versions enregistrées, je trouve r=.488, p=.000
.
Je ne comprends pas pourquoi les chercheurs utilisent parfois des versions enregistrées de leurs variables et pourquoi la corrélation semble tellement plus élevée si vous le faites. Quel est le raisonnement ici et pourquoi est-il acceptable d'utiliser des variables enregistrées?
Votre aide est grandement appréciée :-)