EDIT: tragédie! Mes hypothèses initiales étaient incorrectes! (Ou en cas de doute, avez-vous confiance en ce que le vendeur vous dit? Quoi qu'il en soit, merci à Morten également.) Ce qui, je suppose, constitue une autre bonne introduction aux statistiques, mais la méthode de la feuille partielle est maintenant ajoutée ci-dessous ( les gens semblant aimer la feuille entière, et peut-être que quelqu'un le trouvera toujours utile).
Tout d'abord, bon problème. Mais j'aimerais rendre les choses un peu plus compliquées.
A cause de cela, avant de commencer, permettez-moi de simplifier un peu la chose et de dire: la méthode que vous utilisez actuellement est parfaitement raisonnable . C'est pas cher c'est facile c'est logique. Donc, si vous devez persévérer, vous ne devriez pas vous sentir mal. Assurez-vous simplement de choisir vos paquets au hasard. ET, si vous pouvez juste tout peser de manière fiable (pointe du chapeau à whuber et user777), alors vous devriez le faire.
La raison pour laquelle je veux que les choses se compliquent un peu, c’est que vous avez déjà - vous ne nous avez tout simplement pas parlé de toute la complication, à savoir que - compter prend du temps, et que le temps, c’est aussi de l’argent . Mais comment bien ? Peut-être est-il réellement moins coûteux de tout compter!
Donc, ce que vous faites réellement, c'est équilibrer le temps qu'il faut pour compter, avec le montant que vous économisez. (SI, bien sûr, vous ne jouez ce jeu qu'une seule fois. La prochaine fois que cela se produit avec le vendeur, ils ont peut-être compris et essayé un nouveau tour. Dans la théorie des jeux, c'est la différence entre les jeux à un seul coup et les jeux itératifs. Mais pour le moment, supposons que le vendeur fasse toujours la même chose.)
Une dernière chose avant d’arriver à l’estimation cependant. (Et, désolé d'avoir écrit tant de choses et de ne pas encore avoir trouvé de réponse, mais c'est une très bonne réponse à ce que ferait un statisticien? Ils passeraient énormément de temps à s'assurer de bien comprendre chaque infime partie du problème. avant de pouvoir dire quoi que ce soit à ce sujet.) Et cette chose est un aperçu basé sur ce qui suit:
(ÉDITEZ: SI CE SONT RÉELLEMENT TRESTE.) Votre vendeur n'économise pas d'argent en retirant les étiquettes - il réalise des économies en n'imprimant pas les feuilles. Ils ne peuvent pas vendre vos étiquettes à quelqu'un d'autre (je suppose). Et peut-être, je ne sais pas et je ne sais pas si vous le faites, ils ne peuvent pas imprimer une demi-feuille de vos documents et une demi-feuille de ceux de quelqu'un d'autre. En d'autres termes, avant même d'avoir commencé à compter, vous pouvez supposer que le nombre total d'étiquettes est égal à l'un ou l'autre 9000, 9100, ... 9900, or 10,000
. C'est comme ça que je vais l'aborder, pour l'instant.
La méthode de la feuille entière
Lorsqu'un problème est un peu délicat comme celui-ci (discret et limité), de nombreux statisticiens simulent ce qui pourrait arriver. Voici ce que j'ai simulé:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Cela vous donne, en supposant qu'ils utilisent des feuilles entières, et que vos hypothèses soient correctes, une éventuelle distribution de vos étiquettes (en langage de programmation R).
Puis j'ai fait ceci:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Cette méthode permet de trouver, à l’aide d’une méthode "bootstrap", des intervalles de confiance de 4, 5, ... 20 échantillons. En d'autres termes, en moyenne, si vous utilisiez N échantillons, quelle serait votre intervalle de confiance? J'utilise ceci pour trouver un intervalle suffisamment petit pour décider du nombre de feuilles, et c'est ma réponse.
Par "assez petit", je veux dire que mon intervalle de confiance à 95% ne contient qu'un nombre entier - par exemple, si mon intervalle de confiance était compris entre [93.1, 94.7], je choisirais alors 94 comme nombre correct de feuilles, car nous savons c'est un nombre entier.
Une autre difficulté cependant - votre confiance dépend de la vérité . Si vous avez 90 feuilles et que chaque pile en a 90, vous convergez très rapidement. Même avec 100 feuilles. J'ai donc examiné 95 feuilles, où l'incertitude est la plus grande, et constaté que pour obtenir une certitude de 95%, il faut environ 15 échantillons en moyenne. Dans l’ensemble, vous voulez prélever 15 échantillons, car vous ne savez jamais ce qu’il ya vraiment.
APRÈS que vous sachiez combien d'échantillons dont vous avez besoin, vous savez que vos économies attendues sont:
100Nmissing−15c
c500−15∗
Mais vous devriez également faire payer le gars pour vous avoir fait faire tout ce travail!
(EDIT: ADDED!) L'approche Part Sheet
Bon, supposons que ce que le fabricant dit soit vrai, et ce n’est pas intentionnel: quelques étiquettes sont simplement perdues dans chaque feuille. Vous voulez toujours savoir, environ combien d'étiquettes, au total?
Ce problème est différent parce que vous n'avez plus la possibilité de prendre une bonne décision - c'est un avantage pour l'hypothèse Feuille entière. Auparavant, il n'y avait que 11 réponses possibles - maintenant, il y en a 1100, et obtenir un intervalle de confiance de 95% sur le nombre exact d'étiquettes va probablement prendre beaucoup plus d'échantillons que vous le souhaitez. Voyons donc si nous pouvons y penser différemment.
Parce qu'il s'agit vraiment de prendre une décision, il nous manque encore quelques paramètres: combien d'argent êtes-vous prêt à perdre dans une seule transaction et combien coûte-t-il de compter pour un tapis? Mais laissez-moi vous dire ce que vous pouvez faire avec ces chiffres.
Simuler à nouveau (bien que les accessoires de user777 si vous pouvez le faire sans!), Il est instructif d'examiner la taille des intervalles lorsque vous utilisez un nombre différent d'échantillons. Cela peut être fait comme ça:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Ce qui suppose (cette fois) que chaque pile a un nombre uniformément aléatoire d'étiquettes comprises entre 90 et 100, et vous donne:
Bien sûr, si les choses étaient vraiment comme si elles avaient été simulées, la moyenne moyenne serait d’environ 95 échantillons par pile, ce qui est inférieur à ce qui semble être la vérité - c’est un argument en fait pour l’approche bayésienne. Cependant, cela vous donne une idée utile de votre degré de certitude quant à votre réponse, au fur et à mesure que vous continuez à échantillonner - et vous pouvez désormais compenser explicitement le coût de l'échantillonnage avec n'importe quelle transaction conclue en matière de tarification.
Ce que je sais maintenant, nous sommes tous vraiment curieux d’entendre parler de cela.