Pourquoi utiliser des variables enregistrées?

C'est probablement une question très fondamentale, mais je ne semble pas être en mesure d'y trouver une réponse solide. J'espère ici, je peux.

Je lis actuellement des articles en préparation de ma propre thèse de maîtrise. Actuellement, je lis un article qui étudie la relation entre les tweets et les caractéristiques du marché boursier.

Dans l'une de leurs hypothèses, ils proposent que "l'augmentation du volume des tweets soit associée à une augmentation du volume des échanges".

Je m'attendrais à ce qu'ils, dans les corrélations par paires, soient en corrélation tweetVolumeavec tradingVolume, mais à la place ils signalent utiliser les versions enregistrées: LN(tweetVolume)et LN(tradingVolume).

Pour ma thèse, j'ai reproduit ce bout de papier. J'ai collecté des tweets sur une centaine d'entreprises pendant plus de 6 mois ( tweetVolume) et un volume de transactions boursières pour la même période. Si je corrèle les variables absolues, je trouve r=.282, p.000mais quand j'utilise les versions enregistrées, je trouve r=.488, p=.000.

Je ne comprends pas pourquoi les chercheurs utilisent parfois des versions enregistrées de leurs variables et pourquoi la corrélation semble tellement plus élevée si vous le faites. Quel est le raisonnement ici et pourquoi est-il acceptable d'utiliser des variables enregistrées?

Votre aide est grandement appréciée :-)

correlation data-transformation logarithm

— Pr0no
source

Si vous voyez les fils connexes en bas à droite de la page, l'utilisation des logarithmes a été abordée plusieurs fois auparavant. En particulier, voir En régression linéaire, quand est-il approprié d'utiliser le log d'une variable indépendante au lieu des valeurs réelles? .

— Andy W

Les raisons d'utiliser des variables enregistrées se divisent en deux catégories: statistiques et substantives.

Statistiquement, si vos variables sont asymétriques vers la droite (c'est-à-dire qu'elles ont une longue queue à l'extrémité supérieure), alors une mesure telle que la corrélation ou la régression peut être beaucoup influencée par un ou quelques cas à l'extrémité supérieure par une ou les deux variables (valeurs aberrantes, points de levier, points influents). Prendre le journal peut aider cela en réduisant ou en éliminant l'inclinaison.

Sur le fond, certains concepts sont mieux pensés en termes de ratios que de différences. Prenez les deux mesures de volume dont vous discutez. Maintenant, comparez deux sociétés: l'une est une petite entreprise négociant sur le NASDAQ dont peu de gens ont entendu parler, l'autre une méga-société. Les premiers recevront très peu de tweets par jour. Ces derniers en auront beaucoup; de même pour le volume des transactions. Supposons (juste pour choisir des chiffres) que la société A reçoit généralement 100 tweets par jour et que ce dernier en reçoit 100 000.

Si les tweets de la société A passent de 100 à 500 (une différence de 400, un ratio de 5), c'est une énorme nouvelle - quelque chose doit se passer. Mais si l'entreprise B passe de 100 000 à 100 400 (une différence de 400, un ratio très proche de 1), peu importe. L'équivalent grossier serait de passer de 100 000 à 500 000.

— Peter Flom - Réintégrer Monica
source

Merci pour votre réponse rapide. Deux autres questions viennent de votre réponse. Premièrement, si j'ai 3 propriétés pour un objet (volume de négociation d'actions, rendements et volatilité) et que je prends la version enregistrée pour l'une d'entre elles? Ce que vous dites pour les tweets des sociétés A et B peut également compter pour leurs retours: si le stock de la société A passe de 1 à 1,50, les retours sont (50%) 0,50. La société B a besoin d'une augmentation de 400 à 600 (200) pour un pourcentage de retour similaire. Et cela découle de cela: si les rendements sont négatifs, LN (-0.50) ne fonctionne évidemment pas. Est-il alors autorisé à prendre -LN (0,50)?

— Pr0no

De plus, si je comprends bien, la prise de la variable enregistrée n'est pas un choix libre - elle doit être argumentée par des tableaux de skweness (statistiquement)? Et en substance, est-ce juste un raisonnement logique pour prendre un journal qui fournit réellement un proff pour le faire? En d'autres termes, y a-t-il des règles de base ici, définissant des seuils au-dessus desquels vous devriez prendre la version enregistrée ou est-ce une question d'interprétation?

— Pr0no

Vous ne voulez pas prendre de journaux de pourcentages dans ce cas: prendre le pourcentage fait ce que le journal ferait. Autrement dit, il fait des rapports de choses. Vous pouvez certainement prendre le journal de certaines variables et pas d'autres. Prendre le journal ne nécessite pas de graphiques d'asymétrie, mais généralement les variables qui doivent être enregistrées sont asymétriques à droite. Mais l' essentiel est la substance . S'il n'est pas logique de prendre le journal, alors ne le faites pas. Utilisez plutôt des méthodes statistiques qui fonctionnent avec des variables asymétriques. LA SUBSTANCE vient en premier.

— Peter Flom - Réintègre Monica