Le problème du monde réel
Un de mes clients s'apprête à envoyer un publipostage à sa liste d'utilisateurs abonnés, et ce défi statistique s'est posé.
Leur équipe marketing dispose de 3 brochures différentes et souhaite savoir quelle brochure obtient le taux de réponse le plus élevé. Ils aimeraient également savoir si l'envoi de l'expéditeur avec une adresse manuscrite, sur une enveloppe épaisse, améliore les résultats par rapport à une enveloppe normale.
Supposons ce qui suit:
- Pour chaque brochure ( ), une personne qui reçoit cette brochure qui l'ouvre réellement et la lit répondra avec la probabilité , où est le taux de réponse réel pour cette brochure
- Les enveloppes épaisses et de haute qualité ont un véritable taux d'ouverture de tandis que les enveloppes normales ont un taux d'ouverture de
- D'après les envois précédents, nous prévoyons que les taux de réponse réels observés se situeront entre environ 1% et 5%.
Nos buts
Nous voulons trouver la meilleure brochure tout en envoyant le moins d'envois. Nous voulons également estimer les deux taux ouverts.
Lors de la collecte des taux de réponse empiriques des expéditeurs envoyés réels, si la vraie différence entre les taux de réponse est supérieure à un demi pour cent, nous devrions être en mesure de détecter cette différence comme statistiquement significative avec
Mes pensées jusqu'à présent
Nous attribuons au hasard des utilisateurs à chacune des 3 brochures, de sorte que utilisateurs reçoivent chaque brochure. Nous voulons savoir de quel nous avons besoin pour atteindre notre sensibilité souhaitée dans la détection des différences de taux de réponse. En supposant le pire des cas, nous devons être en mesure de détecter une différence entre les taux réels de 1% et 1,5%. La SD de cette différence est . Fixer le double de cette quantité (2 écarts types nous donne une confiance de 95%) égal à 0,005 (notre demi-pour cent souhaité) conduit à la solution .
Des questions
- Est-ce la conception optimale ou pouvons-nous faire mieux?
- Mon calcul de correct?
Enfin, quelle est la meilleure façon d'estimer et , ou simplement la différence entre les deux?
Mon idée était d'attribuer au hasard la moitié de chaque groupe de brochures à chaque type d'enveloppe. Dans chaque groupe de brochures, les taux de réponse observés seraient le produit des taux ouverts et du . Cela compliquerait mon calcul de ci-dessus, car j'aurais vraiment dû utiliser ce produit dans mon calcul.
Ma réponse dépendrait alors d'une estimation du taux d'ouverture moyen - - que je devrais deviner. De plus, je ne sais pas comment déterminer la distribution de la différence entre et , car nous avons maintenant trois estimations différentes de cette différence, dont chacune dépend d'un différent , chacun dont nous avons seules des estimations empiriques de, estimations empiriques qui dépendent elles-mêmes de notre estimation du taux d'ouverture moyen.
Merci beaucoup pour toute aide.