J'essaie de comprendre le raisonnement en choisissant une approche de test spécifique lorsqu'il s'agit d'un test A / B simple (c'est-à-dire deux variantes / groupes avec une réponse binaire (convertie ou non). À titre d'exemple, j'utiliserai les données ci-dessous.
Version Visits Conversions
A 2069 188
B 1826 220
La réponse de haut ici est grand et parle de certaines des hypothèses sous - jacentes pour z, t et des tests chi carré. Mais ce que je trouve déroutant, c’est que différentes ressources en ligne citent des approches différentes, et vous pensez que les hypothèses pour un test A / B de base devraient être sensiblement les mêmes?
- Par exemple, cet article utilise z-score :
- Cet article utilise la formule suivante (dont je ne suis pas sûr s'il est différent du calcul zscore?):
- Ce document fait référence au test t (p 152):
Alors, quels arguments peuvent être avancés en faveur de ces différentes approches? Pourquoi aurait-on une préférence?
Pour ajouter un candidat supplémentaire, le tableau ci-dessus peut être réécrit en tant que tableau de contingence 2x2, où le test exact de Fisher (p5) peut être utilisé.
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Mais selon ce test, le test exact de Fisher ne devrait être utilisé qu'avec des échantillons plus petits (quelle est la différence?)
Et puis il y a une paire de tests t et z, un test f (et une régression logistique, mais je veux laisser cela de côté pour l'instant) ... Je me sens comme si je me noyais dans différentes approches de test, et je veux juste pouvoir argumenter les différentes méthodes dans ce cas simple de test A / B.
En utilisant les données d'exemple, je reçois les p-valeurs suivantes
https://vwo.com/ab-split-test-significance-calculator/ donne une valeur p de 0,001 (score z)
http://www.evanmiller.org/ab-testing/chi-squared.html (en utilisant le test du chi carré) donne une valeur p de 0,00259
Et dans R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
donne une valeur de p de 0,002785305
Je suppose que tous sont assez proches ...
Quoi qu'il en soit - espérons seulement une discussion saine sur les approches à utiliser pour les tests en ligne, où la taille des échantillons est généralement de plusieurs milliers, et les taux de réponse sont souvent de 10% ou moins. Mon instinct me dit d'utiliser le chi-carré, mais je veux être en mesure de dire exactement pourquoi je le choisis plutôt que parmi une multitude de façons de le faire.