Qu'est-ce qu'un graphique approprié pour illustrer la relation entre deux variables ordinales?
Quelques options auxquelles je peux penser:
- Nuage de points avec ajout de jitter aléatoire pour empêcher les points de se cacher. Apparemment, un graphique standard - Minitab appelle cela un "tracé de valeurs individuelles". À mon avis, cela peut être trompeur car cela encourage visuellement une sorte d'interpolation linéaire entre les niveaux ordinaux, comme si les données provenaient d'une échelle d'intervalles.
- Le diagramme de dispersion est adapté pour que la taille (surface) du point représente la fréquence de cette combinaison de niveaux, plutôt que de dessiner un point pour chaque unité d'échantillonnage. J'ai parfois vu de tels complots dans la pratique. Ils peuvent être difficiles à lire, mais les points se trouvent sur un réseau régulièrement espacé, ce qui permet de surmonter quelque peu les critiques adressées au nuage de points agité selon lequel il «visuellement intermittent» les données.
- En particulier si l’une des variables est considérée comme dépendante, un diagramme à moustaches groupé par niveaux de la variable indépendante. Cela risque de paraître terrible si le nombre de niveaux de la variable dépendante n’est pas suffisamment élevé (très "plat" avec des moustaches manquantes ou même pire des quartiles effondrés rendant l’identification visuelle de la médiane impossible), mais attire au moins l’attention sur les médianes et les quartiles qui statistiques descriptives pertinentes pour une variable ordinale.
- Tableau de valeurs ou grille vierge de cellules avec carte thermique pour indiquer la fréquence. Visuellement différent mais conceptuellement similaire au nuage de points avec une zone de points indiquant la fréquence.
Existe-t-il d'autres idées ou réflexions sur lesquelles les parcelles sont préférables? Existe-t-il des domaines de recherche dans lesquels certaines parcelles ordinales / ordinales sont considérées comme standard? (Je pense me souvenir que la heatmap de fréquence est très répandue dans la génomique, mais je pense que c'est plus souvent entre nominal et nominal.) Des suggestions pour une bonne référence standard seraient également les bienvenues, je suppose quelque chose d'Agresti.
Si quelqu'un veut illustrer avec un tracé, le code R pour les données de l'échantillon fictif suit.
"Quelle est l'importance de l'exercice pour vous?" 1 = pas du tout important, 2 = un peu sans importance, 3 = ni important ni sans importance, 4 = plutôt important, 5 = très important.
"À quelle fréquence prenez-vous régulièrement 10 minutes ou plus?" 1 = jamais, 2 = moins d'une fois par quinzaine, 3 = une fois toutes les deux semaines, 4 = deux ou trois fois par semaine, 5 = quatre fois ou plus par semaine.
S'il serait naturel de traiter "souvent" en tant que variable dépendante et "importance" en tant que variable indépendante, si un graphique fait la distinction entre les deux.
importance <- rep(1:5, times = c(30, 42, 75, 93, 60))
often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1
rep(1:5, times = c(10, 14, 12, 03, 03)), #n=42, importance 2
rep(1:5, times = c(12, 23, 20, 13, 07)), #n=75, importance 3
rep(1:5, times = c(16, 14, 20, 30, 13)), #n=93, importance 4
rep(1:5, times = c(12, 06, 11, 17, 14))) #n=60, importance 5
running.df <- data.frame(importance, often)
cor.test(often, importance, method = "kendall") #positive concordance
plot(running.df) #currently useless
Une question connexe sur les variables continues que j’ai trouvée utile, peut-être un bon point de départ: Quelles sont les alternatives aux diagrammes de dispersion lorsqu’on étudie la relation entre deux variables numériques?