Comment comparer les échelles de Likert avec un nombre variable de catégories dans le temps?

8

Soit l'année 1 les données de l'année dernière et l'année 2 les données de cette année.

Supposons qu'au cours de l'année 1, vous disposiez d'une échelle de likert de 1 à 9 (catégorique / ordinale) et que, au cours de l'année 2, vous disposiez d'une échelle de likert de 1 à 5 (catégorique / ordinale).

Quelles seraient certaines des choses que vous tenteriez (le cas échéant) de comparer les deux années de données?

Ce que j'ai fait jusqu'à présent:

Distributions comparées (forme, asymétrie et kurtosis, statistiquement égales)
Echelonné de 1-9 à 1-5 et les changements YoY dans les fréquences correspondent aux attentes logiques dérivées des nouvelles / événements de l'industrie et des résultats de la recherche qualitative.

Remarque: ce ne sont pas des devoirs. Il peut également ne pas avoir de réponse définitive. Mais j'ai besoin d'un coup de main!

Merci d'avance!

scales likert

— Brandon Bertelsen
source

pourquoi dites-vous l'échelle de Likert puis catégorielle / ordinale? Likert signifie échelonné. Pouvez-vous clarifier un peu cela?

— Henrik

Pour être plus précis, le titre doit être changé en "article" Likert. Sur votre deuxième point, je pense que beaucoup de gens seraient en désaccord quant à savoir si un élément Likert présente des données d'intervalle ou ordinales. Pour ma question, c'est une échelle d'accord, de fortement en désaccord à fortement d'accord. Chaque niveau d'accord étant une «catégorie» et la distance entre être «ordinale». Mais ne nous lions pas dans la sémantique!

— Brandon Bertelsen

@Henrik @Brandon Il y avait déjà quelques discussions, sous le tag échelles , sur la nature et la façon de traiter l'échelle / l'item de Likert.

— chl

5

Ce n'est pas une réponse complète; juste quelques points:

Si vous pouvez administrer les deux versions de l'échelle à un sous-échantillon, vous pouvez estimer les scores correspondants sur les deux formats de réponse. Vous pouvez ensuite appliquer une formule de conversion empiriquement justifiée. Je peux penser à plusieurs façons de procéder. Je serais intéressé si quelqu'un avait un document académique sur les meilleures pratiques pour le faire.
Si vous effectuez un rééchelonnement simple (1 = 1; 2 = 3; 3 = 5; 4 = 7; 5 = 9), rien ne garantit que cela est justifiable. En tant que déclaration générale (du moins d'après mon expérience dans les paramètres organisationnels), les changements de libellé des éléments et les modifications des options d'échelle auront probablement un effet plus important sur les réponses que tout changement réel dans l'attribut d'intérêt. Vous devez au moins vérifier si les ancres d'échelle utilisées sont à peu près équivalentes dans les deux formats de réponse.

— Jeromy Anglim
source

En note à votre deuxième commentaire. Les ancrages sont les mêmes que ceux de l'année précédente de l'enquête. Essentiellement, la granularité de l'échelle a été réduite.

— Brandon Bertelsen

4

[Techniquement, vous avez des éléments d'enquête, pas des échelles de Likert; ces derniers sont fabriqués à partir de plusieurs articles. Voir, par exemple, la construction de l'échelle de notation de Paul Spector {Sage}.]

Les étapes à suivre devront dépendre de l'audience pour laquelle vous signalez. Si c'est académique et rigoureux, comme un comité de thèse, vous pouvez faire face à des défis particuliers. Si ce n'est pas le cas, et s'il est à l'aise avec le format 1-5 commun, pourquoi ne pas redimensionner pour l'adapter à cela, puis signaler les moyennes et les écarts-types (d'autant plus que les formes, l'inclinaison et le kurtosis ne sont pas différents d'une année à l'autre. Je suppose que les distributions sont-ils suffisamment normaux pour pouvoir exprimer avec précision la tendance centrale?).

-> Pourquoi est-ce que je traite vos variables comme des variables de niveau intervalle? Les puristes peuvent dire que les variables de niveau ordinal ne doivent pas être déclarées via des moyens ou sd. -niveau. Après tout, pourquoi évalueriez-vous autrement l'asymétrie ou le kurtosis? Je suppose que votre auditoire sera également d'accord avec et pourra se rapporter à des statistiques au niveau de l'intervalle telles que les moyennes.

Il semble bon que vous ayez déjà exploré les données graphiquement. Si vous voulez aller au-delà de l'évaluation de l'ampleur de la différence et effectuer un test d'hypothèse, pourquoi ne pas faire un test T (indépendant ou corrélé, selon vos données) comparant les 1-5 scores pré et les 1-5 scores post, et produire un intervalle de confiance pour la différence moyenne. Ici, je suppose que vous avez des échantillons aléatoires d'une population.

— rolando2
source

Oui, je me rends compte que je ne suis pas "censé" regarder certaines de ces choses pour les données ordinales, mais vraiment, c'est le seul outil auquel je pouvais penser pour comparer les deux années. Vraiment, je cherchais des choses qui pourraient comparer les distributions. Mais, je suppose que les moyens de test pourraient être plausibles - mais un intervalle de confiance peut ne pas nécessairement inclure ma moyenne car il y a eu de nombreux changements structurels dans l'industrie pour laquelle cette question passe en revue en glissement annuel.

— Brandon Bertelsen

1

Envisagez de transformer les réponses des deux ensembles de données en z-scores. Il y aura une qualité ad hoc à tout type de rééchelonnement, mais au moins de cette façon, vous éviterez de traiter mécaniquement un ensemble particulier d'intervalles sur un élément comme équivalent à un ensemble particulier sur l'autre. J'irais certainement dans cette voie si j'utilisais les éléments comme prédicteurs ou variables de résultats dans toute sorte d'analyse de variance. Si vous faisiez quelque chose avec des échelles composites - celles qui regroupent des mesures similaires - vous feriez probablement essentiellement ce que j'ai proposé: soit vous convertissiez les réponses des éléments en z-scores avant de les additionner, soit en prenant leur moyenne pour former l'échelle composite; ou vous formeriez une échelle avec l'analyse factorielle ou une autre technique qui utilise la matrice de covariance des éléments pour déterminer l'affinité des réponses à ces éléments.

— dmk38
source

2

Il semble que cela obligerait les comparaisons d'une année à l'autre à avoir des moyennes et des variances égales, éliminant artificiellement la plupart des informations sur les changements temporels.

— whuber

vrai. Je ne pensais pas à comparer les moyennes des deux échantillons, auquel cas la conversion en z-scores est auto-destructrice. Avait la covariance à l'esprit - par exemple, évaluer comment un ou plusieurs prédicteurs sont liés au score de l'élément le plus similaire sur une année ou les deux combinés. J'ai tendance à penser que les matrices de covariance sont la seule chose que l'on devrait essayer d'apprendre en utilisant des éléments similaires (les gens ont tendance à investir les points sur la mesure avec trop de sens - "mais le mien passe à 11"). J'espère que je n'ai jeté personne sur la bonne voie.

— dmk38

Agréablement, certaines comparaisons sont perdues. Cependant, une grande partie de mon analyse se concentre sur les scores nets des promoteurs plutôt que sur les moyennes et la variance. Donc, je vais l'essayer et voir ce que ça m'apporte. Vive la réponse.

— Brandon Bertelsen

1

Je viens de devoir résoudre ce problème exact. Nous avions une échelle de 9 points qui a été changée en une échelle de 5 points sur un tracker datant de 10 ans. Non seulement cela, mais certaines déclarations ont également changé. Et nous rapportions comme une forme de Net Promoter Score.

La solution que nous avons utilisée applique une conception par paires en demandant à chaque répondant quelques anciennes déclarations (ainsi que toutes les nouvelles). Nous avons seulement demandé à un couple à l'ancienne plutôt qu'à tous, car cela minimise la fatigue du répondant. Nous prenons ensuite chaque score sur l'échelle de 9 points et trouvons sa moyenne sur le score de 5 points et nous l'utilisons pour corriger le changement d'échelle ET le changement d'énoncé. Ceci est assez similaire à ce qu'on appelle le «jugement sémantique de la valeur fixe des mots» dans certains articles, mais au lieu d'utiliser des experts pour décider de la «valeur des mots», nous avons utilisé les données réelles des répondants.

Par exemple, si le score moyen sur l'échelle de 5 points était de 1,2 pour les répondants qui ont répondu 2 sur l'échelle de 9 points, pour nous permettre de comparer directement les années avec différentes échelles sur l'échelle de 5 points, nous remplacerions les 2 sur l'échelle de 9 points. avec 1,2, puis faites de même pour tous les scores de 9 points, et procédez comme d'habitude.

Nous avons fait la même chose pour signaler le NPS. Mais d'abord, nous avons converti l'échelle de 5 points en échelle NPS de 1 (promoteur), 0 (passif), -1 (détracteur). Par exemple, si la moyenne sur l'échelle NPS était de 0,9 pour un 2 sur l'échelle de 9 points, nous l'avons remplacée avec 0,9, puis faites de même pour tous les scores de 9 points, puis calculez NPS normalement.

Pour évaluer l'efficacité de cela, nous avons d'abord comparé les scores NPS «non corrigés» en utilisant les échelles de 9 et 5 points pour voir s'il y avait réellement un problème, puis ceux «corrigés». Je n'ai pas encore les données mais je ferai rapport quand nous le ferons!

— Chris Howden
source