Déterminer la taille de l'échantillon avant de commencer une expérience ou de l'exécuter indéfiniment?


12

J'ai étudié les statistiques il y a des années et j'ai tout oublié, donc cela peut sembler être des questions conceptuelles générales plutôt que spécifiques, mais voici mon problème.

Je travaille pour un site e-commerce en tant que UX Designer. Nous avons un cadre de test A / B qui a été construit il y a des années et je commence à en douter.

La métrique sur laquelle nous prenons toutes nos décisions est connue sous le nom de conversion, et elle est basée sur le pourcentage d'utilisateurs qui visitent le site, finissent par acheter quelque chose.

Nous voulons donc tester le changement de la couleur du bouton Acheter du vert au bleu.

Le contrôle est ce que nous avons déjà, le bouton vert où nous savons quel est notre taux de conversion moyen. L'expérience remplace le bouton vert par le bouton bleu.

Nous convenons que 95% est le niveau de confiance dont nous sommes satisfaits et nous activons l'expérience, la laissons en cours.

Lorsque les utilisateurs visitent le site, dans les coulisses, il y a 50/50 de chances qu'ils soient envoyés à la version de contrôle (bouton vert) par rapport à la version d'expérience (bouton bleu).

Après avoir regardé l'expérience après 7 jours, je constate une augmentation de 10,2% de la conversion en faveur de l'expérience avec une taille d'échantillon de 3000 (1500 pour le contrôle, 1500 pour l'expérience) et une signification statistique de 99,2%. Excellent je pense.

L'expérience continue, la taille de l'échantillon augmente et je constate une augmentation de la conversion de + 9% avec une signification de 98,1%. Ok, continuez l'expérience plus longtemps et maintenant l'expérience montre juste une augmentation de 5% de la conversion avec une signification statistique de seulement 92%, le cadre me disant que j'ai besoin de 4600 échantillons supplémentaires avant d'atteindre 95%?

À quel moment l'expérience est-elle concluante alors?

Si je pense à un processus d'essai clinique où vous êtes d'accord sur la taille de l'échantillon à l'avance et à la fin de l'expérience, vous voyez une amélioration de 10% de toute métrique à 99%, alors la décision est prise que ce médicament soit ensuite commercialisé. Mais alors, s'ils avaient fait l'expérience sur 4000 personnes et qu'ils voyaient une amélioration de 5% de toute métrique à seulement 92% significative, alors ce médicament ne serait pas autorisé à être mis sur le marché.

Devrions-nous nous mettre d'accord sur une taille d'échantillon à l'avance et arrêter une fois cette taille d'échantillon atteinte et être satisfait des résultats si la signification était de 99% au moment de désactiver l'expérience?


1
Vous pourriez envisager d'utiliser une approche différente basée sur le classement et la sélection .
pjs

Je suis tombé sur ce film ( youtube.com/watch?v=fl9V0U2SGeI ). Il me semble que cela répond exactement à votre question.
Nathan

Il convient également de noter que l'étude sous-jacente est très réflexive, se déplace rapidement et nécessite des tests répétés constants. Les mises en page, les couleurs, les boutons, etc. se déplacent rapidement à mesure que de nouveaux sites, normes et styles apparaissent. Également un niveau élevé de problèmes combinatoires (ce bouton peut renvoyer des résultats différents avec un léger ajustement à la couleur d'arrière-plan, etc.). Par conséquent, quels que soient les niveaux de signification, vous ne pouvez pas avoir un niveau de confiance «vrai» très élevé (et certainement pas pendant de longues périodes) dans les résultats même s'ils semblent très forts.
Philip

Réponses:


11

Je pense que le concept que vous recherchez est l'analyse séquentielle. Il y a un certain nombre de questions sur ce site étiquetées avec le terme que vous pourriez trouver utiles, peut-être ajuster la valeur de p pour l'analyse séquentielle adaptative (pour le test du chi carré)? serait un point de départ. Vous pouvez également consulter l'article Wikipedia ici . Un autre terme de recherche utile est la dépense alpha qui vient du fait que lorsque vous regardez chaque regard répété, vous devez le considérer comme consommant une partie de votre alpha (niveau de signification). Si vous continuez à jeter un œil à vos données sans prendre en compte les comparaisons multiples, vous rencontrez le type de problème que vous décrivez dans votre question.


Merci, c'est quelques bonnes recommandations de lecture. Je ne saurais même pas quoi chercher sinon. Va consommer cela.
Tech 75

5

À quel moment l'expérience est-elle concluante alors?

Je pense que c'est là que se situe l'erreur de pensée. Il n'y a aucun moment où l'expérience peut être «concluante» si l'on considère que cela signifie «prouver la causalité par déduction». Lorsque vous effectuez une expérience impliquant un test statistique, vous devez vous engager concernant les preuves que vous jugez suffisantes.

Des procédures expérimentales statistiquement solides vous donnent des résultats avec des taux connus de faux positifs et de faux négatifs. Si vous avez choisi une procédure qui utilise 0,05 comme seuil de signification, vous dites que vous êtes prêt à accepter que dans 5% des cas où il n'y a en fait aucune différence, votre test vous dira qu'il y a une différence.

Si vous vous écartez de la procédure de la manière que vous décrivez (ne pas choisir un point d'arrêt à l'avance, exécutez simplement le test jusqu'à ce que votre valeur p calculée tombe en dessous de 0,05, ou exécutez l'expérience entière plusieurs fois jusqu'à ce que vous obteniez un résultat positif. , etc.), vous augmentez la probabilité que votre test vous indique qu'une différence existe alors qu'il n'y a en fait aucune différence. Vous augmentez vos chances de croire que votre changement a été efficace. Ne vous laissez pas duper.

Lire cet article: La psychologie des faux positifs La flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif

Il met en évidence plusieurs façons dont vous pouvez interférer de manière incorrecte avec une procédure de test, ce qui vous rend plus susceptible d'être trompé, y compris le scénario exact que vous décrivez (ne pas savoir quand arrêter une expérience).

D'autres réponses vous donnent quelques solutions pour atténuer ces problèmes (analyse séquentielle, correction de Bonferroni pour des comparaisons multiples). Mais ces solutions, tout en étant capable de contrôler le taux de faux positifs, réduire généralement le pouvoir de l'expérience, ce qui rend moins probable de détecter des différences quand ils le font exist.


Il y a une autre erreur que vous faites. Vous parlez d'une "amélioration de 10% de toute métrique à une signification de 99%". Seuls les tests de signification peuvent vous dire si la différence observée dans votre échantillon est probablement due à une réelle différence sous-jacente ou à un bruit aléatoire. ils ne vous donnent pas d'intervalles de confiance quant à l'ampleur réelle de la différence.


3

Je pense que vous posez la mauvaise question ici. La question que vous posez concerne les tests statistiques; Je pense que la bonne question est "pourquoi l'effet change-t-il avec le temps?"

Si vous mesurez une variable 0/1 pour la conversion (ont-ils acheté du tout?), Les personnes qui n'ont pas acheté lors d'une session initiale peuvent revenir et acheter plus tard. Cela signifie que le taux de conversion augmentera avec le temps et tout effet d'avoir un achat client lors de sa première visite, par opposition aux visites ultérieures, sera perdu.

En d'autres termes, commencez par bien comprendre ce que vous mesurez, puis préoccupez-vous de la façon dont vous mesurez.


3

C'est exactement pourquoi un critère clair doit être défini avant les essais. Comme @mdewey l'indique, il existe des méthodes établies pour évaluer périodiquement un essai, mais elles nécessitent toutes un critère d'arrêt clair pour éviter toute confusion sur la décision. Deux problèmes critiques sont que vous devez corriger les comparaisons multiples et que chaque analyse n'est pas indépendante, mais son résultat est fortement influencé par les résultats de vos analyses précédentes.

Comme alternative, il peut être préférable de définir une taille d'échantillon définie sur la base d'arguments commercialement pertinents.

Tout d'abord, l'entreprise doit convenir de ce qu'est un changement commercialement pertinent du taux de conversion (c'est-à-dire de l'ampleur de la différence nécessaire pour justifier la justification commerciale du changement à déployer de manière permanente). Sans en convenir, il n'y a pas de référence raisonnable.

Une fois que la taille minimale de l'effet commercialement pertinente est déterminée (notez que cela peut changer au cas par cas en fonction de la gravité de l'étape testée), vous convenez du niveau de risque que l'entreprise est prête à accepter pour avoir omis un effet réel ( beta) et pour avoir accepté un faux effet (alpha).

Une fois que vous avez ces chiffres, branchez-les dans la calculatrice de taille d'échantillon et le tour est joué, vous aurez votre taille d'échantillon définie pour prendre une décision.


ÉDITER

L'utilisation de petits échantillons et en espérant qu'ils auront un effet suffisamment important est une fausse économie (puisque votre objectif est d'obtenir des résultats fiables exploitables plutôt que de générer des hypothèses controversées pour la publication universitaire). En supposant un échantillonnage non biaisé, à de faibles tailles d'échantillon, la probabilité de sélectionner au hasard des échantillons qui se trouvent tous vers des extrêmes opposés est plus élevée que dans des tailles d'échantillon élevées. Cela conduit à une probabilité plus élevée de rejeter une hypothèse nulle alors qu'en fait il n'y a pas de différence. Cela impliquerait donc de pousser à travers des changements qui n'ont pas réellement d'impact réel ou pire encore d'avoir un impact légèrement négatif. C'est une manière différente d'expliquer de quoi parle @Science quand ils déclarent

"vous augmentez la probabilité que votre test vous indique qu'une différence existe alors qu'il n'y a en fait aucune différence"

Le point de pré-spécifier votre analyse statistique (qu'il s'agisse d'une taille d'échantillon fixe comme je le décris ou d'une stratégie d'évaluation multiple) est que vous équilibrez de manière appropriée les exigences des erreurs de type I et II. Votre stratégie actuelle semble se concentrer sur les erreurs de type I et ignorer complètement le type II.

Comme de nombreux autres répondants ont déclaré que les résultats ne sont jamais concluants, mais si vous avez pris en compte les erreurs de type I et II et leur impact sur votre entreprise, vous aurez la plus grande confiance que vous puissiez espérer quant à la mise en œuvre de changements basés sur les résultats. En fin de compte, la prise de décision consiste à être à l'aise avec votre niveau de risque et à ne jamais traiter vos «faits» comme immuables.

Je suis intrigué par d'autres aspects de la conception de votre étude qui peuvent influencer les résultats que vous voyez. Ils peuvent révéler certains facteurs subtils qui ne sont pas ce que vous voulez.

Les personnes sélectionnées pour l'échantillon sont-elles toutes de nouveaux visiteurs, tous les visiteurs de retour ou est-ce indifférencié? Les clients établis peuvent avoir une tendance accrue à opter pour quelque chose de nouveau (donc orienté vers le changement et non une couleur spécifique), mais pour les nouveaux clients, tout est nouveau.

Les personnes réelles qui cliquent se reproduisent-elles dans le délai de l'étude?

Si les gens visitent plusieurs fois au cours de la période de l'étude, la même version leur est-elle présentée ou est-elle attribuée au hasard à la volée?

Si des visiteurs récurrents y sont inclus un risque de fatigue d'exposition (ce n'est plus gênant car ce n'est plus nouveau)


Merci pour cela. Vous faites un bon point sur l'accord préalable d'un changement de conversion pertinent sur le plan commercial. Mais comme pour le commerce électronique, de petits changements de conversion peuvent avoir un impact sur les ventes, ce sera une valeur assez faible.
Tech 75

La différence minimale requise étant petite n'est pas un problème, elle vous assurera une alimentation appropriée.
ReneBt

0

La pratique courante veut généralement que vous décidiez d'abord de la taille de l'échantillon (pour contrôler la puissance statistique de votre test d'hypothèse), puis que vous réalisiez l'expérience.

En réponse à votre position actuelle, il semble que vous ayez combiné une série de tests d'hypothèse. Je vous recommande de regarder la méthode de Fisher. En outre, vous voudrez probablement examiner les méthodes de Brown ou Kost pour adapter la méthode de Fisher aux statistiques de test dépendantes. Comme un autre répondant l'a mentionné, la conversion (ou la non-conversion) d'un client aura un impact sur le fait qu'il effectuera ou non un achat lors de la prochaine visite, quelle que soit la couleur du bouton.

Réflexions:

  1. Plus d'informations et de sources sur les méthodes de Fisher et leurs extensions peuvent être trouvées sur l'article Wikipedia pour la méthode de Fisher.
  2. Je pense qu'il est important de mentionner qu'une expérience n'est jamais vraiment concluante. Une petite valeur de p n'indique pas que votre résultat est concluant - seulement que l'hypothèse nulle est peu probable sur la base des données que vous avez acquises.
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.