Comment résumer les données catégoriques?

13

J'ai eu du mal avec le problème suivant avec, je l'espère, un problème facile pour les statisticiens (je suis un programmeur avec une certaine exposition aux statistiques).

Je dois résumer les réponses à une enquête (pour la direction). L'enquête comprend plus de 100 questions, regroupées dans différents domaines (avec environ 5 à 10 questions par domaine). Toutes les réponses sont catégoriques (sur une échelle ordinale, elles sont comme "pas du tout", "rarement" ... "quotidiennement ou plus fréquemment").

La direction aimerait obtenir un résumé pour chaque domaine et voici mon problème: comment regrouper les réponses catégorielles dans la question connexe? . Les questions sont trop nombreuses pour faire un graphique ou même un tracé de réseau pour chaque zone. Je privilégie si possible une approche visuelle, par rapport, disons, aux tableaux avec des nombres (hélas, ils ne les liront pas).

La seule chose que je peux trouver est de compter le nombre de réponses dans chaque zone, puis de tracer l'histogramme.

Y a-t-il autre chose disponible pour les données catégorielles?

J'utilise R, mais je ne sais pas si c'est pertinent, je pense que c'est plus une question de statistiques générales.

categorical-data data-transformation descriptive-statistics

— wishihadabettername
source

Et PCA / FA? Vous réduisez les variables corrélées en facteurs et travaillez à partir de là ...

— Roman Luštrik

cela pourrait être trop, si la direction demande «comment avez-vous obtenu les chiffres agrégés? ils voudront une technique plus simple pour pouvoir (sentir) la comprendre. Hélas, le monde réel :-( Merci, cependant.

— wishihadabettername

10

Vous devez vraiment déterminer quelle est la question à laquelle vous essayez de répondre - ou quelle question la direction est la plus intéressée. Ensuite, vous pouvez sélectionner les questions du sondage qui sont les plus pertinentes pour votre problème.

Sans rien savoir de votre problème ou de votre jeu de données, voici quelques solutions génériques:

Représentez visuellement les réponses sous forme de grappes. Mon préféré est soit en utilisant des dendrogrammes soit en traçant simplement sur un axe xy (Google "cluster analysis r" et aller au premier résultat par statmethods.net)
Classez les questions du plus grand au moins "quotidiennement ou plus fréquemment". Ceci est un exemple qui peut ne pas fonctionner exactement pour vous, mais peut-être qu'il vous inspirera http://www.programmingr.com/content/building-scoring-and-ranking-systems-r
Tableaux croisés: si, par exemple, vous avez une question "À quelle fréquence venez-vous en retard pour travailler?" et "À quelle fréquence utilisez-vous Facebook?", en croisant les deux questions, vous pouvez trouver le pourcentage de personnes qui font rarement les deux, ou qui font les deux tous les jours. )
Corrélogrammes. Je n'ai aucune expérience avec ces derniers mais je l'ai vu également sur le site Web statmethods.net. Fondamentalement, vous trouvez les questions qui ont la corrélation la plus élevée, puis créez un tableau. Vous pouvez trouver cela utile même s'il semble plutôt "occupé".

— Dimitry L
source

Je vais marquer cela comme la réponse; il contient plusieurs bonnes suggestions, je vais donc réfléchir à leur application.

— wishihadabettername

9

Il y a un bon article sur les techniques de visualisation que Michael Friendly pourrait utiliser:

Visualisation des données catégorielles: données, histoires et images

(En fait, il y a un livre entier consacré à cela par le même auteur.) Le package vcd dans R implémente bon nombre de ces techniques.

— ars
source

voté pour la référence au papier et au livre, je vais les lire

— wishihadabettername

8

Les options standard incluent:

obtenir la moyenne des éléments d'une échelle (par exemple, si l'échelle est de 1 à 5, la moyenne sera de 1 à 5)
convertir chaque élément en une mesure binaire (par exemple, si l'élément> = 3, puis 1, sinon 0), puis prendre la moyenne de cette réponse binaire

Étant donné que vous regroupez des éléments et des échantillons importants de personnes dans l'organisation, les deux options ci-dessus (c'est-à-dire la moyenne de 1 à 5 ou la moyenne du pourcentage au-dessus d'un point) seront fiables au niveau organisationnel ( voir ici pour discussion plus approfondie ). Ainsi, l'une des options ci-dessus communique essentiellement les mêmes informations.

En général, je ne serais pas inquiet du fait que les articles soient catégoriques. Au moment où vous créez des échelles en agrégeant des éléments, puis en agrégeant votre échantillon de répondants, l'échelle sera une approximation proche d'une échelle continue.

La direction peut trouver une métrique plus facile à interpréter. Lorsque j'obtiens des notes sur la qualité de l'enseignement (c.-à-d. La note moyenne de satisfaction des étudiants, disons 100 étudiants), c'est la moyenne sur une échelle de 1 à 5 et c'est très bien. Au fil des années, après avoir vu mes propres scores d'année en année et avoir vu certaines normes pour l'université, j'ai développé un cadre de référence de ce que signifient les différentes valeurs. Cependant, la direction préfère parfois penser au pourcentage d'approbation d'une déclaration ou au pourcentage de réponses positives, même s'il s'agit en quelque sorte du pourcentage moyen.

Le principal défi est de donner un cadre de référence tangible pour les scores. La direction voudra savoir ce que les chiffres signifient réellement . Par exemple, si la réponse moyenne pour une échelle est de 4,2, qu'est-ce que cela signifie? Est-ce bien? Est-il mauvais? Est-ce que ça va?

Si vous utilisez l'enquête sur plusieurs années ou dans différentes organisations, vous pouvez commencer à développer certaines normes. L'accès aux normes est l'une des raisons pour lesquelles les organisations obtiennent souvent un fournisseur d'enquête externe ou utilisent une enquête standard.

Vous pouvez également effectuer une analyse factorielle pour valider que l'affectation des éléments aux échelles est empiriquement justifiable.

En termes d'approche visuelle, vous pouvez avoir un simple graphique à barres ou à barres avec le type d'échelle sur l'axe des x et le score sur l'axe des y. Si vous avez des données normatives, vous pouvez également les ajouter.

— Jeromy Anglim
source

1

Oui. Je trouve que le regroupement est une approche très efficace de la réduction des données pour réduire les données d'enquête pour la compréhension et la présentation de la gestion.

L'analyse de classe latente (traitant les échelles de réponse comme ordinales) ou k-means (les traitant comme continues) peut être considérée comme une forme de compression de l' information . La classification des répondants dans leur segment le plus probable produit généralement une variable catégorique qui a des explications intuitives lorsqu'elle est profilée en termes de réponses.

Vous pouvez ensuite nommer les segments et utiliser ces variables pour une analyse et une présentation de niveau résumé.

Ajustez un groupe pour des groupes d'éléments connexes (par exemple ci-dessous) ou éventuellement tous ensemble.

Q14cluser <-  Q14(a..m):  Which of the following... Check all that apply
QEcluster <-  QE1..QE30:  Rate your agreement with .. Scale of 1-5

J'utilise souvent LatentGold, mais je trouve que FASTCLUS dans SAS est un bon moyen.

Avant de le faire, vous devrez envisager d'ajuster les réponses de chaque individu pour leur utilisation de l'échelle (controversée mais pragmatique). Certaines personnes s'appuient simplement sur une extrémité de l'échelle, en évitant le négatif ou le positif. Le regroupement des réponses brutes a généralement tendance à diviser les gens par ce comportement.

La standardisation des réponses de chaque répondant à sa propre moyenne et le regroupement de celles-ci exposent souvent des variables qui évoluent ensemble de manière très intéressante.

— prototype
source