Différence entre le test G et le test t et laquelle devrait être utilisée pour les tests A / B?


8

Le G-Test est un moyen d'obtenir des estimations rapides d'une distribution chi au carré, et est recommandé par l'auteur de ce tutoriel de test A / B bien connu .

Cet outil suppose une distribution normale et utilise la différence de moyens pour calculer la confiance.

Quelle est la différence entre un test G et un test T? Quels sont les avantages ou les inconvénients de l'utilisation de chaque méthode pour mesurer l'efficacité de nos tests A / B?

J'essaie de trouver celui que je dois utiliser pour mesurer les résultats de mon cadre de test A / B. Notre cadre comporte deux cas d'utilisation généraux: divisez le groupe de visiteurs de manière égale, montrez à chacun une fonctionnalité différente et mesurez leur conversion sur une autre page (par exemple, la page d'inscription); et diviser le groupe de visiteurs en groupe témoin (90%) et un groupe expérimental (10%) pour un test, et mesurer les conversions sur une autre page.

Notre site Web reçoit entre 1000 et 200 000 visites par jour (je suis volontairement vague pour cacher le vrai nombre, ce qui ne change pas grand-chose). Ces visites sont réparties avec une distribution exponentielle sur environ 300 pages.

Merci, Kevin


4
La randomisation des visiteurs (c.-à-d. 50:50 chance de contrôle ou de traitement expérimental) est en général une bonne conception , en supposant que votre traitement expérimental ne fait rien de terrible aux visiteurs. De plus, 1000-200 000 est une large gamme; Y a-t-il une raison de penser que les visiteurs les jours calmes / occupés seraient (en moyenne) affectés différemment par le traitement témoin / expérimental?
invité

Salut, La gamme est vague car je préfère ne pas partager le nombre réel. Les fluctuations entre les jours ne sont pas importantes.
Kevin Burke

Salut Kevin. Je me demande si vous pourriez clarifier un point pour moi. Le titre pose la question de la différence entre un test et un test . En lisant la question, cela se lit presque comme si vous vouliez savoir lequel des deux types de fractionnement d'échantillon utiliser. En fait, il semble que la seule réponse actuellement affichée ait interprété les questions comme concernant cette dernière. Pouvez-vous répondre brièvement à cela? À votre santé. Gt
cardinal du

Je suis plus intéressé par la différence entre un test G et un test T, mettra à jour la question pour clarifier.
Kevin Burke

Réponses:


8

En général, le test qui est moins approximatif dans le calcul des statistiques du test est meilleur, bien que tous convergent vers les mêmes résultats avec l'augmentation de la taille de l'échantillon.

Donc, puisque les tests A / B se concentrent généralement sur les résultats binaires, ...

Réponse courte:

Utilisez le test G, car il est moins approximatif.

Longue réponse:

Le test t, dans les tests A / B dans le cas de tailles d'échantillon inégales et de variance inégale , se rapproche de la différence de deux distributions avec une distribution t, ce qui est contestable en soi . Les deux distributions peuvent être inconnues, mais on considère que leur moyenne et leur variance sont suffisantes pour la décrire (sinon toute conclusion n'aidera pas beaucoup), ce qui est bien sûr vrai pour la distribution normale.

Dans le cas particulier du résultat binaire, la distribution binomiale peut être approximée avec une distribution normale avec , qui est valide pour (règle empirique, = essais, = taux de réussite).μ=np,σ2=np(1p)np(1p)9np

Donc, en résumé, bien qu'il soit correct d'appliquer le test t, deux approximations sont effectuées pour transformer le cas binomial en un cas plus générique, ce qui n'est pas nécessaire ici, car des tests moins approximatifs comme le test G ou (encore mieux ) Le test exact de Fisher est disponible pour ce cas particulier. Le test exact de Fisher devrait être appliqué surtout si la taille de l'échantillon est moins égale à 20 (une autre règle empirique), mais je suppose que cela n'a pas d'importance dans un test A / B solide.


Je ne suis pas tout à fait votre règle de base pour l'approximation normale; Je me demande s'il y a une faute de frappe. Comme écrit, la règle s'appliquerait beaucoup plus rapidement pour que . p=.9p=.1
gung - Rétablir Monica

@gung merci de l'avoir signalé, c'était une faute de frappe. Btw: La référence utilisée est Hartung: Statistik, Oldenbourg 14th Edition (malheureusement uniquement disponible en allemand)
steffen

5

La page de Ben Tilly que vous avez référencée est un excellent résumé des tests A / B pour les débutants. Cependant, à mesure que vous abordez des questions plus détaillées / problèmes de conception d'étude, il vaut la peine de rechercher des sources primaires plus détaillées. Kohavi et al ont publié un article fondateur sur les tests AB qui est une bonne combinaison d'exhaustivité et de lisibilité. Je le recommande vivement: http://exp-platform.com/Documents/GuideControlledExperiments.pdf .

De retour à vos questions, les vraies questions que vous devriez vous poser sont:

  1. Combien d'impressions dois-je obtenir dans les traitements et le contrôle pour que le résultat soit significativement significatif?
  2. Quelle est la taille d'effet minimale qui me préoccupe? Êtes-vous intéressé par des traitements qui sont au moins 5% meilleurs que les témoins ou 0,005% meilleurs?
  3. En cas de traitements multiples, existe-t-il un scénario pour comparer les traitements entre eux, ou est-ce suffisant pour comparer chaque traitement au contrôle?
  4. Quelles variables sont importantes à mesurer pour s'assurer que les groupes de traitement ne sont pas affectés par les effets secondaires non intentionnels de votre expérience. Le papier Kohavi en est un excellent exemple en termes de performances du site Web: si votre expérience de traitement est plus lente que le contrôle pour une raison quelconque (plus d'images, serveur différent, code rapide et sale), cela peut sérieusement faire dérailler le test.
  5. Est-il plus logique d'inscrire des utilisateurs ou des impressions dans les tests? En d'autres termes, est-il judicieux de garantir que l'utilisateur obtient toujours une expérience de contrôle ou de traitement pendant la durée de la session / période d'essai, ou pouvez-vous inscrire chaque impression de page dans le test de manière indépendante?

Au fur et à mesure que vous travaillez sur ces questions, vous finirez par avoir une meilleure compréhension des paramètres de test. Combiné avec votre connaissance du domaine (par exemple, si votre site connaît un modèle cyclique fort que vous souhaitez contrôler), l'appétit pour exposer les utilisateurs à des expériences (êtes-vous réellement disposé à montrer l'expérience de traitement à de nombreux utilisateurs, ou préférez-vous contenir le dommages potentiels) et la vitesse souhaitée pour obtenir des résultats, cette compréhension vous guidera vers la détermination finale de la façon de répartir le trafic global entre les contrôles et les traitements.

Je déteste répondre à des questions spécifiques avec "cela dépend", mais dans ce cas, cela dépend vraiment de ce qui se passe avec votre site et votre expérience. Dans certaines conditions, cela ne fera pas de différence significative de diviser le trafic 50/50 ou 90/10, alors que dans des circonstances différentes cela peut être très important. YMMV, mais une bonne référence comme le document cité ci-dessus vous fera certainement avancer dans la bonne direction.


3
Merci pour une réponse réfléchie et utile. Je me rends compte que vous êtes ici depuis quelques mois maintenant, mais comme c'est votre première réponse, cela semble être une bonne occasion de vous accueillir sur le site. J'espère que vous vous sentirez inspiré pour offrir plus de conseils au fil du temps!
whuber

4

Je ne peux pas commenter le message d'origine car je manque de points StackExchange ou autre chose, mais je voulais juste souligner que pour la valeur p, ABBA n'utilise pas un simple test Z basé sur une approximation normale, bien que je puisse voyez comment vous pourriez penser cela à partir d'une brève lecture de la page. ABBA utilise des statistiques binomiales exactes jusqu'à la taille d'échantillon 100, au-delà de cela, il s'appuie sur l'approximation normale avec une correction de continuité. Je n'ai pas vu de cas où cela diffère grandement des tests "moins approximatifs" mais je serais très intéressé à voir de tels cas si vous les rencontrez.

Il n'y a en aucun cas de distributions ou de tests t.

Pour les intervalles de confiance, il s'appuie toujours sur une approximation normale, bien qu'il utilise la méthode Agresti-Coull qui fonctionne plutôt bien.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.