Comment réduire le nombre d'articles en utilisant conjointement l'analyse factorielle, la cohérence interne et la théorie de la réponse des articles?


12

Je suis en train de développer empiriquement un questionnaire et j'utiliserai des nombres arbitraires dans cet exemple pour illustrer. Pour le contexte, je développe un questionnaire psychologique visant à évaluer les schémas de pensée couramment identifiés chez les personnes souffrant de troubles anxieux. Un article pourrait ressembler à "J'ai besoin de vérifier le four à plusieurs reprises car je ne peux pas être sûr qu'il est éteint ".

J'ai 20 questions (Likert en 5 points) qui peuvent être composées d'un ou deux facteurs (notez qu'en réalité, j'ai plus de 200 questions, comprenant 10 échelles, et chaque échelle peut être composée de deux facteurs). Je suis prêt à effacer environ la moitié des éléments, laissant 10 questions sur l'un des deux facteurs.

Je connais l'analyse factorielle exploratoire (ALE), la cohérence interne (alpha de Cronbach) et les courbes caractéristiques des éléments dans la théorie de la réponse aux éléments (IRT). Je peux voir comment j'utiliserais n'importe laquelle de ces méthodes pour déterminer quels éléments sont les «pires» dans une seule échelle. J'apprécie que chaque méthode réponde également à des questions différentes, bien qu'elles puissent conduire à des résultats similaires et je ne sais pas quelle "question" est la plus importante.

Avant de commencer, assurez-vous de savoir ce que je fais avec chacune de ces méthodes individuellement.

  • À l'aide de l'EFA, j'identifierais le nombre de facteurs et supprimerais les éléments qui se chargent le moins (disons <0,30) sur leur facteur respectif ou qui se chargent de manière substantielle entre les facteurs.

  • En utilisant la cohérence interne, je supprimerais les éléments qui ont le pire "alpha si l'élément supprimé". Je pourrais le faire en supposant un facteur dans mon échelle, ou le faire après un EPT initial pour identifier le nombre de facteurs et ensuite exécuter mon alpha pour chaque facteur.

  • En utilisant l'IRT, je supprimerais les éléments qui n'évaluent pas le facteur d'intérêt le long de leurs options de réponse (5 Likert). Je serais en train de regarder les courbes caractéristiques des objets. Je chercherais essentiellement une ligne sur un angle de 45 degrés allant de l'option 1 sur l'échelle de Likert jusqu'à 5 le long du score latent. Je pourrais le faire en supposant un facteur, ou le faire après un premier
    EPT pour identifier le nombre de facteurs, puis exécuter les courbes pour chaque facteur.

Je ne sais pas laquelle de ces méthodes utiliser afin d’identifier au mieux les articles qui sont les «pires». J'utilise le pire au sens large, de sorte que l'élément porterait préjudice à la mesure, que ce soit en termes de fiabilité ou de validité, qui sont tous deux également importants pour moi. Je peux probablement les utiliser conjointement, mais je ne sais pas comment.

Si je devais continuer avec ce que je sais maintenant et faire de mon mieux, je ferais ce qui suit:

  1. Faites un ALE pour identifier le nombre de facteurs. Supprimez également les éléments avec de mauvais chargements sur leurs facteurs respectifs, car je ne veux pas que les éléments se chargent mal, quelle que soit la façon dont ils le feraient dans d'autres analyses.
  2. Effectuez l'IRT et supprimez également les éléments défectueux jugés par cette analyse, s'il en reste dans l'EFA.
  3. Signalez simplement l'Alpha de Cronbach et n'utilisez pas cette mesure comme moyen de supprimer des éléments.

Toutes les directives générales seraient grandement appréciées!

Voici également une liste de questions spécifiques auxquelles vous pouvez peut-être répondre:

  1. Quelle est la différence pratique entre la suppression d'éléments basés sur les chargements factoriels et la suppression d'éléments basés sur l'alpha de Chronbach (en supposant que vous utilisez la même disposition factorielle pour les deux analyses)?

  2. Que dois-je faire en premier? En supposant que je réalise l'EPT et l'IRT avec un seul facteur, et que les deux identifient les différents éléments à supprimer, quelle analyse devrait avoir la priorité?

Je ne suis pas déterminé à faire toutes ces analyses, bien que je rapporterai malgré tout l'alpha de Chronbach. J'ai l'impression que faire juste IRT laisserait quelque chose de manquant, et de même pour EFA.


Si vous choisissez d'obtenir la validité de construction via FA, vous devez bien sûr commencer par FA (après avoir éliminé les éléments avec des "mauvaises", par exemple des distributions trop asymétriques). Votre engagement avec FA sera complexe et itératif. Après avoir jeté la plupart des éléments "faibles", réexécutez FA, vérifiez l'index KMO, le degré de restauration des corrélations, l'interprétabilité des facteurs, vérifiez s'il y a plus d'éléments à supprimer, puis réexécutez
ttnphns


1
Vous supprimez les éléments avec le plus haut "alpha si l'élément supprimé" n'est pas le plus bas ...

C'est étrange! quant à cette question fondamentale, nous n'avons pas de réponse reconnue dans les 3 ans.
WhiteGirl

Réponses:


3

Je n'ai pas de citations, mais voici ce que je suggère:

Zeroth: Si possible, divisez les données en un ensemble de formation et de test.

Faites d'abord l'EPT. Examinez différentes solutions pour voir lesquelles ont du sens, en fonction de votre connaissance des questions. Vous devriez le faire avant l'alpha de Cronbach, ou vous ne saurez pas quels éléments entrent dans quel facteur. (Exécuter alpha sur TOUS les éléments n'est probablement pas une bonne idée).

Ensuite, exécutez alpha et supprimez les éléments qui ont des corrélations beaucoup plus faibles que les autres dans chaque facteur. Je ne fixerais pas de seuil arbitraire, je rechercherais ceux qui sont beaucoup plus bas que les autres. Voyez s'il est logique de les supprimer.

Enfin, choisissez des éléments avec une variété de niveaux de "difficulté" de l'IRT.

Ensuite, si possible, refaites ceci sur l'ensemble de test, mais sans faire aucune exploration. Autrement dit, voyez à quel point le résultat trouvé sur l'ensemble d'apprentissage fonctionne sur l'ensemble de test.


Merci d'avoir répondu. C'est dans la direction que je pensais, même si je ne suis pas sûr d'avoir les cas pour diviser les données. De plus, comme les articles sont sur des échelles de Likert à 5 points, je m'attends à ce que la plupart d'entre eux, ou du moins les «bons», présentent des difficultés similaires.
Behacad

1
Vous connaissez sûrement de bonnes références :-) Je vous taquinerais sur les points suivants (car ce fil servira probablement de référence pour de futures questions). (a) Habituellement, la suppression d'élément basée sur l'alpha de Cronbach est effectuée sans considérer un schéma de validation croisée. De toute évidence, il s'agit d'une approche biaisée, car les mêmes individus sont utilisés pour estimer les deux mesures. (b) Une autre alternative consiste à baser la corrélation article / échelle en considérant le score de repos (c'est-à-dire le score de somme sans inclure l'élément considéré): pensez-vous que cela importe dans ce cas? (...)
chl

1
(...) (c) Enfin, les modèles IRT sont souvent utilisés pour éliminer les articles (dans un esprit de purification de l' échelle ) sur la base des statistiques d'ajustement des articles, etc. Quelle est votre opinion sur cette approche?
chl

Pour info, je peux probablement trouver des références pour chacune de ces méthodes individuellement, mais j'apprécierais toute référence potentielle à l'utilisation de l'une de ces méthodes conjointement. Toutes les références seraient super, vraiment! Vous connaissez (et probablement!) Des critiques ...
Behacad

@chl Je pourrais trouver des références, mais je ne les connais pas du haut de ma tête. Sur a) et b), cela importe probablement plus que la plupart des gens ne le pensent; quelqu'un devrait faire une simulation. sur c) Cela fait un moment que je n'ai pas fait d'IRT (mon diplôme est en psychométrie, mais c'était il y a longtemps).
Peter Flom - Réintègre Monica

2

Les trois de vos critères suggérés pourraient en fait être réalisés en IRT, plus spécifiquement en IRT multidimensionnel. Si la taille de votre échantillon est assez grande, ce serait probablement une façon cohérente de procéder pour chaque sous-échelle. De cette façon, vous pourriez bénéficier des avantages de l'IRT pour modéliser un élément de manière indépendante (en utilisant des modèles nominaux pour certains éléments, un crédit partiel généralisé ou gradué pour d'autres, ou si possible même établir des échelles de notation pour aider à interpréter les éléments polytomiques de manière plus parcimonieuse).

Le MIRT est conceptuellement équivalent à l'analyse factorielle au niveau des articles et a donc une relation d'équivalence EPT linéaire pour les articles dichotomiques et polytomiques. Je ne sais pas si j'accepterais les critères <.3 pour supprimer des articles, car cela dépend vraiment du contexte et de la structure des facteurs. Les petites charges / pentes ne fournissent pas autant d'informations sur les emplacements d'interception, mais peuvent toujours être utiles car elles peuvent offrir une fonction d'information plus large et moins pointue à tous les niveaux de . Certaines applications de CAT utilisent également ces types d'éléments dès le début, car elles fournissent une bande d'informations plus large au début du test.θ

La suppression d'éléments basés sur les critères de Cronbach est à peu près la même chose que la suppression d'éléments qui donnent une meilleure fiabilité marginale / empirique dans IRT, donc si le logiciel que vous utilisez prend en charge ces statistiques, vous pouvez suivre la même stratégie sans quitter le paradigme IRT. Je serais cependant plus enclin à vérifier les fonctions d'information pour voir si la suppression d'un élément affecte gravement la mesure à différents niveaux (liés à l'endroit où se trouvent les interceptions). Les tracés d'informations relatives sont également utiles ici.θ

Vous pouvez essayer de supprimer des éléments qui ne sont pas conformes aux exigences unidimensionnelles de la plupart des logiciels IRT, mais je ne recommanderais pas nécessairement cela si cela affecte la représentation théorique des constructions à portée de main. Dans les applications empiriques, il est généralement préférable d'essayer d'adapter nos modèles à notre théorie, et non l'inverse. C'est également là que les modèles bifacteurs / à deux niveaux sont généralement appropriés, car vous souhaitez inclure tous les éléments possibles tout en tenant compte de la multidimensionnalité de manière systématique et théoriquement souhaitable.


Merci! Comment mesurez-vous la fiabilité empirique de l'IRT? Est-ce la même chose que l'information?
Behacad

Pas exactement, cela dépend davantage de la façon dont on obtient les estimations du «vrai score» ( ) et de leurs erreurs types associées, pour former le rapport CTT . Ainsi, si vous calculez des scores EAP, par exemple, vous pouvez utiliser ces informations pour former le rapport entre la variance et et la variance des erreurs standard. Le package fera cela avec sa fonction, tout comme le package (ou peut-être que c'est le package ... Je ne me souviens pas, c'est le même auteur pour les deux). θ^θrxx=T/(T+E)θmirtfscores()sirtTAM
philchalmers

@ philchalmers, veuillez jeter un coup d'œil à la question si vous pouvez y répondre.
WhiteGirl
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.