Alternative aux tamis / mosaïques pour les tableaux de contingence

Une fois, je suis tombé sur un type de graphique pour des données catégorielles (c'est-à-dire des tableaux de contingence) sur Internet, ce que j'ai vraiment aimé, mais je ne l'ai jamais retrouvé, et je ne sais même pas comment il s'appelle. C'était essentiellement comme un diagramme à tamis, en ce sens que les hauteurs de ligne et les largeurs de colonne étaient mises à l'échelle par rapport aux probabilités marginales. Ainsi, chaque case a été mise à l'échelle à la fréquence relative attendue sous l'indépendance. Cependant, il différait d'un diagramme à tamis en ce que, plutôt que de tracer des hachures croisées dans chaque boîte, il représentait un point (comme dans un nuage de points) à un endroit choisi au hasard parmi un uniforme bivarié pour chaque observation. De cette façon, la densité des points reflète à quel point les dénombrements observés correspondent aux dénombrements attendus. Autrement dit, si la densité était similaire dans chaque boîte, le modèle nul est raisonnable, ) pourrait ne pas être très probable sous le modèle nul. Étant donné que les points sont tracés au lieu de hachures croisées, il existe une correspondance simple et intuitive entre l'élément tracé et le nombre observé, ce qui n'est pas nécessairement vrai pour les tracés de tamis (voir ci-dessous). De plus, le placement aléatoire des points donne à l'intrigue une sensation «organique». De plus, la couleur pourrait être utilisée pour mettre en évidence les cases / cellules qui s'écartent fortement du modèle nul, et une matrice de tracé pourrait être utilisée pour examiner les relations par paires entre de nombreuses variables différentes, afin qu'elle puisse incorporer les avantages de tracés similaires. $i,j$

Est-ce que quelqu'un sait comment s'appelle ce complot?
Existe-t-il un package / une fonction qui le fera facilement dans R ou dans un autre logiciel (par exemple, Mondrian)? Je ne trouve rien de semblable dans vcd . Bien sûr, il pourrait être codé en dur à partir de zéro, mais ce serait pénible.

Voici un exemple simple d'un tracé de tamisage, notez qu'il est facile de voir comment les comptes attendus pour les différentes catégories devraient se dérouler sous le modèle nul, mais difficile de concilier le hachurage croisé avec les nombres réels, ce qui donne un tracé qui n'est pas assez aussi facile à lire et esthétiquement hideux:

    B ~B
 A 38  4
~A  3 19

entrez la description de l'image ici
Pour ce que ça vaut, un graphique en mosaïque a en quelque sorte le problème opposé: bien qu'il soit plus facile de voir quelles cellules ont un nombre «trop» ou «trop peu» (par rapport au modèle nul), il est plus difficile de reconnaître quelles sont les relations entre les les comptes attendus auraient été. Plus précisément, les largeurs de colonne sont mises à l'échelle par rapport à la probabilité marginale, mais les hauteurs de ligne ne le sont pas, ce qui rend cette information presque impossible à extraire.
entrez la description de l'image ici
Et maintenant pour quelque chose de complètement différent...

Est-ce que quelqu'un sait d'où vient la convention pour utiliser le bleu pour «trop» et le rouge pour «trop peu»? Cela a toujours été contre-intuitif pour moi. Il me semble qu'une densité exceptionnellement élevée (ou trop d'observations) va de pair avec le chaud , et une faible densité va de pair avec le froid , et que (au moins dans l'éclairage de scène) les rouges sont chauds et les bleus sont frais .

Mise à jour: Si je me souviens bien, l'intrigue que j'ai vue était dans un pdf d'un chapitre (introduction ou ch1) d'un livre qui a été mis gratuitement à disposition en ligne comme teaser marketing. Voici une version approximative de l'idée que j'ai codée à partir de zéro:
entrez la description de l'image ici
même avec cette version brute, je pense qu'elle est plus facile à lire que le graphique au tamis, et à certains égards plus facile que le graphique en mosaïque (par exemple, il est plus facile de reconnaître ce que les relations entre les fréquences des cellules serait sous indépendance). Ce serait bien d'avoir une fonction qui: a. ferait cela automatiquement avec n'importe quel tableau de contingence, b. pourrait être utilisé comme élément constitutif d'une matrice de parcelle, et c. aurait les fonctionnalités intéressantes fournies avec les tracés ci-dessus (comme la légende des résidus normalisés sur le tracé de la mosaïque).

r data-visualization categorical-data

— gung - Réintégrer Monica
source

Donc, vous voulez essentiellement une mosaïque avec un remplissage différent? La Rfonction assocplotest-elle proche de ce que vous voulez dire? Sinon, je parie qu'un Rprogrammeur pourrait modifier cela ou mosaicplotfaire ce que vous voulez.

— Peter Flom - Réintègre Monica

Références d'intérêt connexes, Shadings basés sur les résidus pour visualiser l'indépendance (conditionnelle) ( Zeileis et al.2007 ), PDF ici , et un autre fil ici sur la visualisation des tableaux de contingence avec quelques références. Je crois que l'article Zeileis a une belle discussion sur la couleur qui peut répondre à votre dernière question (il peut être bon de parcourir les références pour voir si elles citent également le graphique dont vous parlez).

— Andy W

C'est le contraire, @PeterFlom, je veux essentiellement un tracé de tamis avec un autre type de remplissage. Alternativement, vous pourriez dire que je veux un tracé en mosaïque où les cases affichées sont mises à l'échelle par rapport aux fréquences attendues sous indépendance (et éventuellement un type de remplissage différent également).

— gung - Rétablir Monica

"Est-ce que quelqu'un sait d'où vient la convention d'utiliser le bleu pour" trop "et le rouge pour" trop peu "? Cela a toujours été contre-intuitif pour moi." Bon point. C'est en effet contre-intuitif. Le spectre lumineux va grossièrement du bleu à gauche (associé à des longueurs d'onde plus petites) au rouge à droite (associé à des longueurs d'onde plus grandes). Les affichages en mosaïque semblent inverser cela sur sa tête ...

— landroni

L'idée du diagramme de tamisage est que le nombre de boîtes dans chaque cellule est proportionnel à la fréquence observée, donc la densité relative montre une fréquence supérieure ou inférieure à la fréquence attendue. Si vous n'aimez pas les couleurs, vous pouvez facilement les changer par défaut. Si vous n'aimez pas la fonction d'ombrage par défaut du tamis, vous pouvez facilement écrire la vôtre, par exemple, shading.points()pour faire ce que vous voulez, dans le cadre strucplot qui a été cité ci-dessus et est disponible sous forme de vignette dans le vcdpackage.

— user101089

Le livre que vous avez décrit ressemble à «Visualiser les données catégoriques», Michael Friendly. L'intrigue décrite dans le 1er chapitre qui semble correspondre à votre demande a été décrite comme un type de modèle conceptuel pour visualiser les données du tableau de contingence (décrit de manière lâche par l'auteur comme un modèle de pression dynamique avec une densité d'observation), et peut être vu dans l'aperçu google pour Ch 1. Le livre est destiné aux utilisateurs SAS.

Un article sur le sujet est référencé ici: www.datavis.ca/papers/koln/kolnpapr.pdf

«Modèles conceptuels pour visualiser les données des tableaux de contingence», Michael Friendly.

entrez la description de l'image ici

* accessoirement, l'auteur est également répertorié comme l'un des auteurs du package vcd (car il a été spécifiquement inspiré par son livre mentionné ci-dessus) - vous pouvez peut-être lui demander directement s'il y a une simple modification à l'une des fonctions intégrées qui est pas facilement apparent.

** Le schéma de coloration semble relier la couleur bleue aux écarts positifs par rapport à l'indépendance et le rouge aux écarts négatifs. Bien que le schéma rouge soit logique dans ce contexte, il aurait peut-être été plus approprié d'utiliser le vert pour représenter des écarts positifs.

http://www.datavis.ca/papers/asa92.html

— tapoter
source

Beau travail, le mystère est résolu! Je dois réellement acheter le livre au lieu de le prévisualiser dans divers morceaux et que ma bibliothèque m'envoie des chapitres de temps en temps. IMO cette forme de visualisation me rappelle beaucoup de ce que les cartographes appellent des "cartes de points", et on pourrait utiliser la littérature à partir de là pour justifier comment les points sont un meilleur outil de visualisation que les lignes et les hachures croisées. C'est aussi une bonne littérature en termes de placement préférentiel des points.

— Andy W

Cela me donne un bon départ. Merci de votre aide.

— gung - Réintégrer Monica

Peut-être pas ce que vous avez vu, mais pour la visualisation des départs attendus sous l' indépendance, les parcelles de correspondance sont bien motivées.

http://www.jstatsoft.org/v20/i03/

(En passant, le livre de SAS et M Friendly s'est trompé sur l'ajustement recommandé et de nombreuses parcelles contenaient des artefacts et cela peut avoir distrait de leur valeur perçue.)

— phaneron
source

Merci pour votre aide, j'aime les tracés de correspondance. Pouvez-vous en dire plus sur cet ajustement recommandé qui s'est trompé? De quel ajustement s'agissait-il? Comment était-ce inexact? Et qu'est-ce qui n'allait pas avec les complots?

— gung - Rétablir Monica

@gung: Voir download.journals.elsevierhealth.com/pdfs/journals/0895-4356/…

— phaneron