Coefficient de corrélation pour la variable nominale non dichotomique et la variable ordinale ou numérique

J'ai déjà lu toutes les pages de ce site en essayant de trouver la réponse à mon problème mais personne ne semble être le bon de moi ...

Je vous explique d'abord le type de données avec lesquelles je travaille ...

Disons que j'ai un vecteur de tableau avec plusieurs noms de ville, un pour chacun des 300 utilisateurs. J'ai également un autre vecteur de tableau avec des scores de réponse à une enquête auprès de chaque utilisateur ou une valeur continue pour chaque utilisateur.

Je voudrais savoir s'il existe un coefficient de corrélation qui calcule la corrélation entre ces deux variables donc, les variables nominales et numériques / ordinales

J'ai cherché sur Internet et dans certaines pages, ils suggèrent d'utiliser le coefficient de contingence ou le coefficient V de Cramer ou le coefficient Lambda ou Eta. Pour chacune de ces mesures, il suffit de dire qu'elles pourraient être appliquées à de telles données dans lesquelles nous avons une variable nominale et un intervalle ou une variable numérique. Le fait est que la recherche et la recherche, en essayant de comprendre chacun d'entre eux, sont parfois écrites ou en regardant les exemples qu'il est raisonnable de les utiliser si vous avez une variable nominale dichotomique, sauf pour Cramer V, d'autre temps n'est pas écrit aucune exigence pour le type de données. Beaucoup d'autres pages disent qu'il est juste d'appliquer une régression à la place, c'est vrai, mais j'aimerais simplement savoir s'il existe un coefficient comme Pearson / Spearman pour ce type de données.

Je pense également que ce n'est pas si bien d'utiliser le coefficient de corrélation Spearman car les villes ne sont pas triables.

J'ai également construit la fonction de CramerV et Eta par moi-même (je travaille avec Matlab) mais pour Eta, ils ne parlent d'aucune valeur p pour voir si le coefficient est statistiquement significatif ...

Dans le site matlabWorks, il y a aussi une jolie boîte à outils qui dit de calculer eta ^ 2 mais le type d'entrée dont il a besoin n'est pas compréhensible.

Y a-t-il quelqu'un qui a fait un test comme le mien? Si vous avez besoin de plus de détails pour comprendre le type de données que j'utilise, demandez-le moi et je vais essayer de mieux vous expliquer.

— cristis
source

Cramérs V est pour deux nominaux. Qu'est-ce qui est mauvais dans la régression? Prenez la variable numérique comme réponse et régressez-la à la valeur nominale (en utilisant des variables muettes). Regardez le

et le F-test global associé.

R^{2}

$R^2$

— Michael M

Rien de mal avec la régression, mais comme nous avons déjà cette mesure, nous aimerions la vérifier d'une autre manière tout comme une double vérification avec un coefficient de corrélation .... merci pour la réponse

— cristis

Vous n'avez rien dit de spécifique sur votre variable "numérique / ordinale". Qu'est-ce qui vous fait le poser ordinale? numérique?

— ttnphns

beacuse ordinale J'ai une variable provenant d'un test d'enquête, donc sa plage est de -4,4, vous pouvez également la considérer comme un intervalle, mais ce type de variable d'enquête est considéré principalement comme ordinale et les autres sont numériques, en continu spécifique car ils le sont fonctionnalités extraites.

— cristis

VOIR AUSSI question connexe stats.stackexchange.com/questions/23938/…

— ttnphns

Réponses:

Nominal vs intervalle

La mesure de «corrélation» la plus classique entre une variable nominale et une variable d' intervalle («numérique») est Eta , également appelée rapport de corrélation, et égale au carré R racine de l'ANOVA unidirectionnelle (avec une valeur de p = celle de la ANOVA). Eta peut être considéré comme une mesure d'association symétrique, comme la corrélation, car Eta d'ANOVA (avec le nominal comme indépendant, numérique comme dépendant) est égal à la trace de régression multivariée de Pillai (avec le numérique comme indépendant, ensemble de variables muettes correspondant à la nominal comme dépendant).

Une mesure plus subtile est le coefficient de corrélation intraclasse ( ICC ). Alors que Eta ne saisit que la différence entre les groupes (définie par la variable nominale) par rapport à la variable numérique, ICC mesure également simultanément la coordination ou l'accord entre les valeurs numériques à l'intérieur des groupes; en d'autres termes, ICC (en particulier la version ICC originale "d'appariement" non biaisée) reste au niveau des valeurs tandis qu'Eta opère au niveau des statistiques (moyennes de groupe vs variances de groupe).

Nominal vs Ordinal

La question de la mesure de «corrélation» entre une variable nominale et une variable ordinale est moins apparente. La raison de la difficulté est que l'échelle ordinale est, par sa nature, plus "mystique" ou "tordue" que les échelles d'intervalle ou nominales. Pas étonnant que les analyses statistiques spécialement pour les données ordinales soient relativement mal formulées jusqu'à présent.

Une façon pourrait être de convertir vos données ordinales en rangs , puis de calculer Eta comme si les rangs étaient des données d'intervalle. La valeur p d'un tel Eta = celle de l'analyse de Kruskal-Wallis. Cette approche semble justifiée en raison du même raisonnement que pourquoi Spearman rho est utilisé pour corréler deux variables ordinales. Cette logique est "quand vous ne connaissez pas les largeurs d'intervalle sur l'échelle, coupez le nœud gordien en linéarisant toute monotonie possible: allez classer les données".

Une autre approche (peut-être plus rigoureuse et plus flexible) consisterait à utiliser la régression logistique ordinale avec la variable ordinale comme DV et la nominale comme IV. La racine carrée du pseudo-carré de Nagelkerke (avec la valeur p de la régression) est une autre mesure de corrélation pour vous. Notez que vous pouvez expérimenter avec diverses fonctions de lien dans la régression ordinale. Cette association n'est cependant pas symétrique: le nominal est supposé indépendant.

Une autre approche pourrait être de trouver une telle transformation monotone des données ordinales en intervalle - au lieu de classer l'avant-dernier paragraphe - qui maximiserait R (c'est-à-dire Eta ) pour vous. Il s'agit d'une régression catégorielle (= régression linéaire avec une mise à l'échelle optimale).

Une autre approche consiste à effectuer un arbre de classification , tel que CHAID, avec la variable ordinale comme prédicteur. Cette procédure regroupera (c'est donc l'approche opposée à la précédente) les catégories ordonnées adjacentes qui ne distinguent pas les catégories du prédictant nominal. Ensuite, vous pouvez compter sur des mesures d'association basées sur le chi carré (comme le V de Cramer) comme si vous corréliez les variables nominales vs nominales.

Et @Michael dans son commentaire suggère encore une autre façon - un coefficient spécial appelé Thêta de Freeman .

Donc, nous sommes arrivés jusqu'ici à ces opportunités: (1) Classer, puis calculer Eta; (2) Utiliser la régression ordinale; (3) Utiliser une régression catégorielle (transformer "de manière optimale" la variable ordinale en intervalle); (4) Utiliser l'arbre de classification (en réduisant "de manière optimale" le nombre de catégories ordonnées); (5) Utilisez le Thêta de Freeman.

— ttnphns
source

PS Il y a un bon bref aperçu des approches de variables ordinales dans le blog de Jeromy Anglim jeromyanglim.blogspot.ru/2009/10/…

— ttnphns

θ

$\theta$

@Michael merci, ici j'ai trouvé un article "Une autre note sur la mesure d'association des hommes libres

— ttnphns

Pour plus d'informations sur le thêta de Freeman et un package R qui inclut les statistiques, consultez cette question de validation croisée .

— Sal Mangiafico

@ttnphns Désolé, pourriez-vous s'il vous plaît répondre à cette question: stats.stackexchange.com/questions/363543/… Merci beaucoup.

— ebrahimi

$F$ $p$ $F$ $p$ $SS_{between\, cities}/SS_{total}$ $R^2$ $R$

— Ray Koopman
source