J'ai étudié les statistiques il y a des années et j'ai tout oublié, donc cela peut sembler être des questions conceptuelles générales plutôt que spécifiques, mais voici mon problème.
Je travaille pour un site e-commerce en tant que UX Designer. Nous avons un cadre de test A / B qui a été construit il y a des années et je commence à en douter.
La métrique sur laquelle nous prenons toutes nos décisions est connue sous le nom de conversion, et elle est basée sur le pourcentage d'utilisateurs qui visitent le site, finissent par acheter quelque chose.
Nous voulons donc tester le changement de la couleur du bouton Acheter du vert au bleu.
Le contrôle est ce que nous avons déjà, le bouton vert où nous savons quel est notre taux de conversion moyen. L'expérience remplace le bouton vert par le bouton bleu.
Nous convenons que 95% est le niveau de confiance dont nous sommes satisfaits et nous activons l'expérience, la laissons en cours.
Lorsque les utilisateurs visitent le site, dans les coulisses, il y a 50/50 de chances qu'ils soient envoyés à la version de contrôle (bouton vert) par rapport à la version d'expérience (bouton bleu).
Après avoir regardé l'expérience après 7 jours, je constate une augmentation de 10,2% de la conversion en faveur de l'expérience avec une taille d'échantillon de 3000 (1500 pour le contrôle, 1500 pour l'expérience) et une signification statistique de 99,2%. Excellent je pense.
L'expérience continue, la taille de l'échantillon augmente et je constate une augmentation de la conversion de + 9% avec une signification de 98,1%. Ok, continuez l'expérience plus longtemps et maintenant l'expérience montre juste une augmentation de 5% de la conversion avec une signification statistique de seulement 92%, le cadre me disant que j'ai besoin de 4600 échantillons supplémentaires avant d'atteindre 95%?
À quel moment l'expérience est-elle concluante alors?
Si je pense à un processus d'essai clinique où vous êtes d'accord sur la taille de l'échantillon à l'avance et à la fin de l'expérience, vous voyez une amélioration de 10% de toute métrique à 99%, alors la décision est prise que ce médicament soit ensuite commercialisé. Mais alors, s'ils avaient fait l'expérience sur 4000 personnes et qu'ils voyaient une amélioration de 5% de toute métrique à seulement 92% significative, alors ce médicament ne serait pas autorisé à être mis sur le marché.
Devrions-nous nous mettre d'accord sur une taille d'échantillon à l'avance et arrêter une fois cette taille d'échantillon atteinte et être satisfait des résultats si la signification était de 99% au moment de désactiver l'expérience?