introduction
J'ai un tableau de contingence catégorique avec de nombreuses lignes et un résultat binaire, que je compte:
name outcome1 outcome2
---- -------- --------
A 14 5
B 17 2
C 6 5
D 11 8
E 18 14
C'est très bien, car pourtant les deux catégories (nom et résultat) sont indépendantes l'une de l'autre, c'est -à- dire que la personne A ne peut pas être la personne B en même temps, et le résultat1 ne se produit pas en même temps que le résultat2.
Ajout de problèmes
Cependant, je souhaite maintenant enrichir mon ensemble de données en affectant des classes aux agents. Les cours ne sont pas exclusifs et certains peuvent même dépendre les uns des autres. Pour l'exemple ci-dessus, avec quatre classes C x :
name C1 C2 C3 C4
---- --- --- --- ---
A 0 0 1 1
B 1 0 1 0
C 1 1 0 1
D 1 1 0 0
E 1 1 1 0
Je veux maintenant savoir s'il y a une dépendance d'une classe sur le résultat de l'expérience.
Solution (naïve) possible
Mon idée était initialement d'agréger en fonction de la classe, puis d'effectuer les tests d'indépendance, afin que le tableau ressemble à ceci:
class outcome1 outcome2
------ -------- --------
C3 49 21
not_C3 17 13
Cependant, je me suis alors rendu compte que je masquais l'influence des autres classes avec cette méthode, car j'isolais en fonction de la classe, ce qui peut me donner de mauvais résultats si certaines des classes dépendent fortement les unes des autres.
De plus, mon véritable ensemble de données contient environ 200 agents et 30 catégories, donc ma méthode donnerait beaucoup de résultats que je sais maintenant interpréter.
La question
Dans cet esprit, je me tourne vers vous: quelle méthode statistique est applicable pour tester la (in-) dépendance à un ensemble de données avec une variable catégorielle non exclusive et une variable catégorielle binaire?
Je voudrais obtenir un résultat du type "La catégorie 1 est le prédicteur le plus fort pour le résultat ( p <0,01). Il est également en corrélation avec la catégorie 2."
Les solutions utilisant Python ou R sont plus que bienvenues, mais je n'ai pas besoin de code. J'ai besoin de savoir quelle méthode est applicable.