Corrélation entre les catégories entre les variables nominales catégorielles

9

J'ai un ensemble de données avec deux variables nominales catégorielles (les deux avec 5 catégories). Je voudrais savoir si (et comment) je suis capable d'identifier des corrélations potentielles entre les catégories de ces deux variables.

En d'autres termes, si par exemple les résultats de la catégorie dans la variable 1 montrent une forte corrélation avec une catégorie spécifique dans la variable 2. Puisque j'ai deux variables avec 5 catégories, l'analyse de corrélation totale pour toutes les catégories se résumerait à 25 résultats (au moins si cela fonctionne comme j'espère / m'attends à ce qu'il fonctionne). $i$ $j$

J'ai essayé de formuler le problème en questions concrètes:

Question 1: Disons que je transfère la variable catégorielle en 5 variables muettes différentes par valeur (catégorie). Cette même procédure que j'exécute également pour la deuxième variable. Ensuite, je veux déterminer la corrélation entre le mannequin 1.i et 2.i (par exemple). Est-il statistiquement correct pour moi d'exécuter cette procédure au moyen d'une procédure de coefficient de corrélation ordinaire? Le coefficient de corrélation résultant de cette procédure fournit-il un aperçu approprié d'une corrélation entre les deux variables muettes?

Question 2: Si la procédure décrite à la question 1 est une procédure valide, existe-t-il un moyen d'exécuter cette analyse pour toutes les catégories de 2 (ou peut-être plus) variables nominales catégorielles en une seule fois?

Le programme que j'utilise est SPSS (20).

— user32378
source

Les remarques de @Michael Mayer s'appliquent à la question révisée.

— Nick Cox

1

Si deux variables ne sont pas corrélées, vous auriez alors 1/25 dans chaque cellule de matrice 5x5 de fréquences. Par conséquent, statistiques , où et - fréquence observée pour l'un des 5 valeurs de deux variables devraient convenir.

χ^{2}

$\chi^2$

\sum_{x y} \frac{(O - E)^{2}}{E}

$\sum_{xy}\frac{(O-E)^2}{E}$

E = \sum_{x y} O_{x y} / 25

$E=\sum_{xy}O_{xy}/25$

O_{x y}

$O_{xy}$

— Aksakal

3

@Aksakal "Non corrélé" est le mauvais terme ici; les variables sont nominales, donc les corrélations ne sont pas définies. Je pense que vous voulez dire indépendant, mais l'indépendance n'implique pas non plus des fréquences égales. Les fréquences des cellules sous indépendance dépendent des fréquences marginales.

— Nick Cox

6

L'association "focale" entre la catégorie d'une variable nominale et la catégorie de l'autre s'exprime par la fréquence résiduelle dans la cellule , comme on le sait. Si le résiduel est 0, cela signifie que la fréquence est ce qui est attendu lorsque les deux variables nominales ne sont pas associées. Plus le résidu est grand, plus l'association est due à la combinaison surreprésentée dans l'échantillon. Le grand résidu négatif indique de manière équivalente la combinaison sous-représentée. Donc, la fréquence résiduelle est ce que vous voulez. $i$ $j$ $ij$ $ij$

Les résidus bruts ne conviennent cependant pas, car ils dépendent des totaux marginaux et du total global et de la taille du tableau: la valeur n'est en aucun cas standardisée. Mais SPSS peut afficher des résidus standardisés également appelés résidus Pearson. St. résiduel est le résiduel divisé par une estimation de son écart type (égal à la racine carrée de la valeur attendue). Les résidus St. d'une table ont une moyenne de 0 et st. dev. 1; par conséquent, st. résiduel sert une valeur z, comme la valeur z dans une distribution d'une variable quantitative (en fait, c'est z dans la distribution de Poisson). Les résidus St. sont comparables entre différentes tables de même taille et le même total . La statistique du chi carré d'un tableau de contingence est la somme des m au carré. résidus $N$ en elle. Comparer st. les résidus dans un tableau et sur des tableaux de même volume aident à identifier les cellules particulières qui contribuent le plus à la statistique du chi carré.

SPSS affiche également les résidus ajustés (= résidus normalisés ajustés). Adj. résiduel est le résiduel divisé par une estimation de son erreur type. Intéressant que adj. résiduel est juste égal à , où est le grand total et est la corrélation de Pearson (alias Phi corrélation) entre les variables fictives correspondant aux catégories et des deux variables nominales . Ce est exactement ce que vous dites que vous voulez calculer. Adj. résiduel lui est directement lié. $\sqrt{N}r_{ij}$ $N$ $r_{ij}$ $i$ $j$ $r$

Contrairement à st. résiduel, adj. résiduel est également standardisé par rapport à la forme des distributions marginales dans le tableau (il prend en considération la fréquence attendue non seulement dans cette cellule mais aussi dans les cellules en dehors de sa ligne et de sa colonne) et vous pouvez donc voir directement la force de la établir un lien entre les catégories et - sans se soucier de savoir si leurs totaux marginaux sont grands ou petits par rapport aux autres catégories ». Adj. résiduel est aussi comme un z-score, mais maintenant c'est comme z de distribution normale (pas de Poisson). Si adj. résiduel est supérieur à 2 ou inférieur à -2, vous pouvez conclure qu'il est significatif au niveau . Adj. les résidus sont encore affectés par ; $i$ $j$ p<0.05 $^1$ $N$ $r$ ne le sont pas, mais vous pouvez obtenir tous les de adj. résidus, suivant la formule ci-dessus, sans passer de temps à produire des variables fictives. $r$ $^2$

En ce qui concerne votre deuxième question, sur les liens de catégorie à 3 voies - cela est possible dans le cadre de l'analyse log-linéaire générale qui affiche également les résidus. Cependant, l'utilisation pratique des résidus cellulaires à 3 voies est modeste: les mesures d'association à 3 (+) voies ne sont pas facilement normalisées et ne sont pas facilement interprétables.

$^1$ st. la courbe normale est le point de coupure de 2,5% de la queue, donc 5% si vous considérez les deux queues comme avec une hypothèse alternative bilatérale. $1.96 \approx 2$

$^2$ Il s'ensuit que la signification du résidu ajusté dans la cellule est égale à la signification de . En outre, s'il n'y a que 2 colonnes dans le tableau et que vous effectuez un test z des proportions entre et , les proportions des colonnes pour la ligne , le La valeur de p de ce test est égale à la signification des deux (tout) adj. résidus dans la ligne du tableau à 2 colonnes. $ij$ $r_{ij}$ $\text {Pr}(i,1)$ $\text {Pr}(i,2)$ $i$ $i$

— ttnphns
source

1

Tiré directement d'un document sur les statistiques bivariées avec SPSS qui vit ici :

Le chi carré est une technique utile car vous pouvez l'utiliser pour voir s'il existe une relation entre deux variables ordinales, deux variables nominales ou entre un ordinal et une variable nominale. Vous regardez l'assymp. Colonne Sig et si elle est inférieure à 0,05, la relation entre les deux variables est statistiquement significative.

— Zhubarb
source

4

D'accord, mais trois grognements, un majeur, deux très mineurs. Le chi carré sur deux variables ordinales ignore l'ordre. Ce n'est pas le document SPSS, mais une introduction élémentaire par quelqu'un d'autre, et ils simplifient trop, comme nous venons de le mentionner. Ils n'ont pas copié "Asymp". correctement (exemple page précédente). Le plus gros problème pour l'OP est que la corrélation est le mauvais mot ici: "association" est le mot clé, en termes de mesure, de test et (mieux encore) de modélisation de l'association.

— Nick Cox

1

Merci, j'ai édité un the SPSS documentpeu, ce n'était pas mon intention d'y attacher une authenticité indue.

— Zhubarb