Je fais des recherches sur les jeux éducatifs, et certains de mes projets actuels impliquent l'utilisation de données de BoardGameGeek (BGG) et VideoGameGeek (VGG) pour examiner les relations entre les éléments de conception des jeux (c.-à-d. ) et les cotes des joueurs de ces jeux (c.-à-d. des scores sur 10). Chacun de ces éléments de conception correspond à une balise dans le système BGG ou VGG, donc chaque élément est essentiellement une variable dichotomique. Un jeu a un 1 pour chaque balise présente dans la base de données et un 0 pour chaque balise qui n'est pas présente.
Il y a des dizaines de ces balises, donc je veux utiliser l' analyse factorielle exploratoire (EFA) pour trouver un nombre gérable de "genres" qui capturent les modèles dans la conception de jeux. En consultant plusieurs sources, je comprends que puisque je travaille avec des variables dichotomiques , je devrais utiliser des corrélations polychoriques ( tétrachoriques , en particulier ici) au lieu de corrélations de Pearson lors de l'élaboration de mes facteurs (il existe également d'autres options - comme l'analyse des traits latents - là-bas, mais c'est celui que j'explore pour l'instant).
Par curiosité, j'ai trouvé deux ensembles de facteurs, l'un utilisant des corrélations de Pearson et l'autre utilisant des corrélations polychoriques (même nombre de facteurs à chaque fois). Mon problème est que les facteurs calculés en utilisant les corrélations de Pearson ont beaucoup plus de sens et sont plus faciles à interpréter que les facteurs calculés en utilisant les corrélations polychoriques. En d'autres termes, les «genres» du premier ensemble de facteurs ont un sens intuitif et correspondent à ma compréhension de la façon dont les jeux sont généralement conçus; ce n'est pas le cas pour le deuxième ensemble de facteurs.
D'une part, je veux m'assurer de respecter les hypothèses des tests que j'utilise, même si cela rend mes résultats moins jolis. De l'autre, je pense qu'une partie de l'objectif de l'analyse factorielle et (plus largement) de la construction de modèles est de trouver quelque chose d'utile, et les informations les plus utiles émergent lorsque je «brise les règles». La nécessité d'un modèle utile est-elle suffisante pour l'emporter sur la violation des hypothèses de ce test? Quelles sont exactement les conséquences de l'utilisation de corrélations de Pearson au lieu de corrélations polychoriques?