Dans un tableau comme celui-ci, vous pouvez partitionner la statistique G produite par un test G, plutôt que de calculer les OR ou en exécutant une régression logistique. Bien que vous deviez décider comment vous allez le partitionner. Ici, la statistique G, qui est similaire à X ^ 2 de Pearson et suit également une distribution X ^ 2, est:
G = 2 * somme (OBS * ln (OBS / EXP)).
Vous calculez d'abord cela pour le tableau global, dans ce cas: G = 76,42, sur 2 df, ce qui est très significatif (p <0,0001). C'est-à-dire que le taux de retour dépend du groupe (A, B ou C).
Ensuite, comme vous avez 2 df, vous pouvez effectuer deux tests G plus petits de 1 df (2x2). Cependant, après avoir effectué le premier, vous devez réduire les lignes des deux niveaux utilisés dans le premier test, puis utiliser ces valeurs pour les comparer au troisième niveau. Ici, disons que vous testez d'abord B contre C.
Obs Rec Ret Total
B 17530 717 18247
C 42408 1618 44026
Exp Rec Ret Total
B 17562.8 684.2 18247
C 42375.2 1650.8 44026
Cela produit un G-stat de 2,29 sur 1 df, ce qui n'est pas significatif (p = 0,1300). Créez ensuite un nouveau tableau en combinant les lignes B et C. Maintenant, testez A contre B + C.
Obs Rec Ret Total
A 16895 934 17829
B+C 59938 2335 62273
Exp Rec Ret Total
A 17101.4 727.6 17829
B+C 59731.6 2541.4 62273
Cela produit un G-stat de 74,13, sur 1 df, ce qui est également très significatif (p <0,0001).
Vous pouvez vérifier votre travail en ajoutant les deux statistiques de test les plus petites, qui doivent être égales à la statistique de test la plus grande. Il fait: 2,29 + 74,13 = 76,42
L'histoire ici est que vos groupes B et C ne sont pas significativement différents, mais ce groupe A a un taux de retour plus élevé que B et C combinés.
J'espère que cela pourra aider!
Vous auriez également pu partitionner la G-stat différemment en comparant d'abord A à B, puis C à A + B, ou en comparant A à C, puis B à A + C. De plus, vous pouvez l'étendre à 4 groupes ou plus, mais après chaque test, vous devez réduire les deux lignes que vous venez de tester, avec un nombre maximal de tests égal au df dans votre table d'origine. Il existe d'autres façons de partitionner avec des tables plus compliquées. Le livre d'Agresti, "Analyse des données catégoriques", devrait contenir les détails. Plus précisément, son chapitre sur l'inférence pour les tableaux de contingence bidirectionnels.