Pourquoi la corrélation n'est-elle pas très utile lorsque l'une des variables est catégorique?

14

Ceci est un peu une vérification de l'intestin, s'il vous plaît aidez-moi à voir si je comprends mal ce concept et de quelle manière.

J'ai une compréhension fonctionnelle de la corrélation, mais je me sens un peu difficile à expliquer en toute confiance les principes derrière cette compréhension fonctionnelle.

Si je comprends bien, la corrélation statistique (par opposition à l'utilisation plus générale du terme) est un moyen de comprendre deux variables continues et la manière dont elles ont tendance à augmenter ou à diminuer de manière similaire.

La raison pour laquelle vous ne pouvez pas exécuter de corrélations sur, disons, une variable continue et une variable catégorielle est parce qu'il n'est pas possible de calculer la covariance entre les deux, car la variable catégorielle par définition ne peut pas produire une moyenne, et ne peut donc même pas entrer dans la première étapes de l'analyse statistique.

Est-ce correct?

correlation categorical-data covariance

— Toof
source

2

Voici des diapositives de cours dactylographiées d'une classe que j'enseigne

— Taylor

3

Raison simple, imaginez que vous demandez aux gens "quelle est votre couleur préférée?" et ils répondent "rouge", "vert", "bleu", "orange", "jaune", ..., ce qui est codé dans votre jeu de données comme 1, 2, 3, ... Ensuite, vous calculez le coefficient de corrélation entre une telle variable avec satisfaction au travail et obtenir une valeur de 0,21. Qu'est-ce que ça veut dire? Pourriez - vous donner une interprétation significative?

— Tim

2

Étroitement liés (peut-être même un doublon?) - Corrélation entre une variable nominale (IV) et une variable continue (DV)

— Silverfish

@Taylor: Qu'utilisons-nous lorsque les deux variables sont continues / numériques, mais que l'une d'entre elles est stochastique et que l'autre ne l'est pas, par exemple, les heures étudiées par rapport à GPA?

— MSIS

16

La corrélation est la covariance standardisée , c'est-à-dire la covariance de et divisée par l'écart type de et . Permettez-moi d'illustrer cela. $x$ $y$ $x$ $y$

En gros, les statistiques peuvent être résumées en ajustant les modèles aux données et en évaluant dans quelle mesure le modèle décrit ces points de données ( résultat = modèle + erreur ). Une façon de le faire est de calculer les sommes des déviations ou des résidus (res) à partir du modèle:

$res= \sum(x_{i}-\bar{x})$

De nombreux calculs statistiques sont basés sur cela, incl. le coefficient de corrélation (voir ci-dessous).

Voici un exemple de jeu de données créé en R(les résidus sont indiqués sous forme de lignes rouges et leurs valeurs ajoutées à côté d'eux):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

En examinant chaque point de données individuellement et en soustrayant sa valeur du modèle (par exemple la moyenne; dans ce cas X=11et Y=5.4), on pourrait évaluer l'exactitude d'un modèle. On pourrait dire que le modèle a sur / sous-estimé la valeur réelle. Cependant, lorsque l'on résume tous les écarts par rapport au modèle, l'erreur totale a tendance à être nulle , les valeurs s'annulent car il existe des valeurs positives (le modèle sous-estime un point de données particulier) et des valeurs négatives (le modèle surestime une donnée particulière point). Pour résoudre ce problème, les sommes des déviances sont au carré et maintenant appelées sommes des carrés ( ): $SS$

$SS = \sum(x_i-\bar{x})(x_i-\bar{x}) = \sum(x_i-\bar{x})^2$

Les sommes des carrés sont une mesure de l'écart par rapport au modèle (c'est-à-dire la moyenne ou toute autre droite ajustée à un ensemble de données donné). Pas très utile pour interpréter la déviance du modèle (et la comparer avec d'autres modèles) car elle dépend du nombre d'observations. Plus il y a d'observations, plus les sommes des carrés sont élevées. Cela peut être résolu en divisant les sommes du carré par . La variance d'échantillon résultante ( ) devient "l'erreur moyenne" entre la moyenne et les observations et est donc une mesure de l'adéquation du modèle (c'est-à-dire qu'il représente) les données: $n-1$ $s^2$

$s^2 = \frac{SS}{n-1} = \frac{\sum(x_i-\bar{x})(x_i-\bar{x})}{n-1} = \frac{\sum(x_i-\bar{x})^2}{n-1}$

Pour plus de commodité, la racine carrée de la variance de l'échantillon peut être prise, ce qui est connu comme l'écart-type de l'échantillon:

$s=\sqrt{s^2}=\sqrt{\frac{SS}{n-1}}=\sqrt{\frac{\sum(x_i-\bar{x})^2}{n-1}}$

Maintenant, la covariance évalue si deux variables sont liées l'une à l'autre. Une valeur positive indique que lorsqu'une variable s'écarte de la moyenne, l'autre variable s'écarte dans le même sens.

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

En standardisant, nous exprimons la covariance par unité d'écart-type, qui est le coefficient de corrélation de Pearson . Cela permet de comparer les variables entre elles qui ont été mesurées dans différentes unités. Le coefficient de corrélation est une mesure de la force d'une relation allant de -1 (une corrélation négative parfaite) à 0 (pas de corrélation) et +1 (une corrélation positive parfaite). $r$

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

Dans ce cas, le coefficient de corrélation de Pearson est , ce qui peut être considéré comme une forte corrélation (bien qu'elle soit également relative selon le domaine d'étude). Pour vérifier cela, voici un autre tracé avec sur l'axe des x et sur l'axe des y: $r=0.87$ XY

Bref, oui, votre sentiment est bon, mais j'espère que ma réponse pourra fournir un certain contexte.

— Stefan
source

1

C'est super utile - en essayant d'approfondir ma propre compréhension, je pense que si je ne peux pas l'expliquer suffisamment à quelqu'un sans expérience en statistique, je ne le comprends pas aussi bien que je le pensais.

— Toof

8

Vous avez (presque) raison. La covariance (et donc la corrélation aussi) ne peut être calculée qu'entre des variables numériques. Cela inclut des variables continues mais aussi des variables numériques discrètes.

Les variables catégorielles pourraient être utilisées pour calculer la corrélation uniquement en fonction d'un code numérique utile pour elles, mais cela ne devrait pas obtenir un avantage pratique - cela pourrait peut-être être utile pour quelques variables catégorielles à deux niveaux, mais d'autres outils sont probablement plus adaptés.

— Pere
source

Pour ajouter au point de Pere, le coefficient de corrélation du moment du produit Pearson représente le degré d'une relation linéaire entre les deux variables. Des mesures non paramétriques comme le rho de Spearman ou le tau de Kendall caractérisent la tendance d'une augmentation ou d'une diminution de X et Y ensemble (se comportent à un degré comme une relation monotone qui ne doit pas nécessairement être linéaire.

— Michael R. Chernick

@Pere: Qu'utilisons-nous lorsque nous avons deux variables continues, mais qu'une seule d'entre elles est stochastique, par exemple, les heures d'exercice par rapport au poids.?

— MSIS

1

@MSIS - Cela devrait être une question différente, mais la corrélation peut être utilisée même si une variable n'est pas aléatoire.

— Pere

1

@Pere: J'ai demandé, au cas où vous seriez intéressé: stats.stackexchange.com/questions/435257/…

— MSIS

3

Il n'y a absolument rien de mal à calculer les corrélations où l'une des variables est catégorique. Une forte corrélation positive impliquerait que l'activation (ou la désactivation de votre variable catégorielle selon votre convention) entraîne une augmentation de la réponse. Par exemple, cela pourrait se produire lors du calcul d'une régression logistique où les variables sont catégoriques: prédire le risque d'une crise cardiaque en raison des comorbidités des patients comme le diabète et l'IMB. Dans ce cas, l'IMC aurait une très forte corrélation avec les crises cardiaques. Diriez-vous que ce n'est pas utile?

— Alex R.
source