J'ai fait une expérience où j'ai collecté des mesures d'un certain nombre de participants. Chaque point de données pertinent a deux variables, toutes deux catégorielles: en fait, chaque variable a deux valeurs possibles (réponses à deux questions oui / non). J'aimerais qu'un test d'hypothèse statistique vérifie s'il semble y avoir une corrélation entre ces deux variables.
Si j'avais un point de données par participant, je pourrais utiliser le test exact de Fisher sur le résultat tableau de contingence. Cependant, j'ai plusieurs points de données par participant. Par conséquent, le test exact de Fisher ne semble pas applicable, car les points de données d'un seul participant ne sont pas indépendants. Par exemple, si j'ai 10 points de données d'Alice, ceux-ci ne sont probablement pas indépendants, car ils proviennent tous de la même personne. Le test exact de Fisher suppose que tous les points de données ont été échantillonnés de manière indépendante, de sorte que les hypothèses du test exact de Fisher ne sont pas satisfaites et il serait inapproprié de l'utiliser dans ce contexte (il pourrait donner des rapports injustifiés d'importance statistique).
Existe-t-il des techniques pour gérer cette situation?
Approches que j'ai envisagées:
Une alternative plausible est d'agréger toutes les données de chaque participant en un seul numéro, puis d'utiliser un autre test d'indépendance. Par exemple, pour chaque participant, je pouvais compter la fraction des réponses Oui à la première question et la fraction des réponses Oui à la deuxième question, en me donnant deux nombres réels par participant, puis utiliser le test du moment du produit de Pearson pour tester la corrélation entre ces deux nombres. Cependant, je ne sais pas si c'est une bonne approche. (Par exemple, je crains que la moyenne / le comptage rejette des données et que cela puisse perdre du pouvoir, en raison de l'agrégation; ou que les signes de dépendance puissent disparaître après l'agrégation.)
J'ai lu sur les modèles à plusieurs niveaux, qui semblent être destinés à gérer cette situation lorsque les variables sous-jacentes sont continues (par exemple, les nombres réels) et lorsqu'un modèle linéaire est approprié. Cependant, ici, j'ai deux variables catégorielles (réponses aux questions Oui / Non), donc elles ne semblent pas s'appliquer ici. Existe-t-il une technique équivalente applicable aux données catégorielles?
J'ai également lu un tout petit peu sur la conception de mesures répétées sur Wikipedia, mais l'article de Wikipedia se concentre sur les études longitudinales. Cela ne semble pas applicable ici: si je comprends bien, les mesures répétées semblent se concentrer sur les effets dus au passage du temps (où la progression du temps influence les variables). Cependant, dans mon cas, le passage du temps ne devrait pas avoir d'effet pertinent. Dites-moi si j'ai mal compris.
Après réflexion, une autre approche qui me vient à l'esprit est d'utiliser un test de permutation. Pour chaque participant, nous pourrions permuter au hasard leurs réponses à la question 1 et (indépendamment) permuter au hasard leurs réponses à la question 2, en utilisant une permutation différente pour chaque participant. Cependant, il n'est pas clair pour moi quelle statistique de test serait appropriée ici, pour mesurer quels résultats sont "au moins aussi extrêmes" que le résultat observé.
Connexe: Comment traiter correctement plusieurs points de données pour chaque sujet (mais qui se concentre également sur des modèles linéaires pour des variables continues, pas des données catégoriques), les mesures sont - elles effectuées sur le même patient indépendamment? (même)