Concevoir un test pour un médium qui dit qu'il peut influencer les jets de dés

Disons que j'ai un ami (appelons-le "George") qui dit qu'il peut contrôler le lancer de dés en utilisant son esprit (c'est-à-dire, rendre les dés plus susceptibles de tomber sur un nombre spécifique auquel il pense).

Comment puis-je concevoir un test scientifiquement rigoureux pour déterminer s'il peut réellement le faire? (Je ne pense pas vraiment qu'il puisse le faire, bien sûr, mais je veux qu'il accepte les détails d'un test, de style Randi incroyable, avant le début du test.) Je veux réduire les excuses (très probablement) post-test qu'il va trouver.

Voici ce que j'ai jusqu'à présent:

Déterminer la technique physique de lancer des dés (quels dés, tasse de shaker, surface d'atterrissage, etc.)
Définissez une "session de test", composée de X lancers de dés. Cela doit être assez petit pour faire en une seule séance, mais assez grand pour déterminer (après analyse) avec une confiance de 95% à 99% si les dés sont tombés correctement ou ont favorisé un côté
Exécutez des sessions Y sur les dés choisis (sans influence de George), en tant que «contrôle» pour vous assurer que les dés affichent d'eux-mêmes des résultats «équitables»
Exécutez des sessions Z avec George. Avant chacun, lancez un dé séparé pour déterminer sur quel nombre George "se concentrera" pendant toute cette session.
Compilez et analysez les résultats.
George invente quelques excuses pour sa triste performance.

Alors mes questions pour vous:

Des défauts ou des problèmes avec ma méthodologie globale? Quelque chose auquel George s'opposerait probablement?
Dois-je utiliser un D6? Ou un D20? Est-ce que ça importe? Un dé avec plus de faces nécessiterait-il plus de rouleaux pour produire des résultats tout aussi confiants? Ou le contraire? Je préfère moins de rouleaux que plus, pour des raisons pratiques :)
Quelles sont les valeurs raisonnables pour X , Y et Z ? Ils ne sont pas entièrement indépendants l'un de l'autre; si ma valeur choisie de X ne permet que 95% de confiance pour une seule session, alors 1 session sur 20 pourrait «échouer», même sans l'influence de George
Comment définir "succès" ou "échec" pour une session individuelle? (J'ai trouvé cette question qui passe par les détails d'un test du chi carré, donc je pense que c'est ma méthodologie d'évaluation, mais quels sont les seuils de confiance raisonnables?)
Comment définir «succès» ou «échec» pour le test global? George pourrait "gagner" une seule session par pur hasard, mais combien de sessions Z devrait-il passer pour réussir le test?

Je vais probablement analyser ces résultats dans une feuille de calcul MS Excel, si cela fait une différence.

probability experiment-design dice

— BradC
source

S'il ne manipule les dés qu'avec son esprit, alors quelqu'un devrait les lancer. Je pense que des choses comme D6 ou D20 devraient être laissées à George. Quel genre de manipulation George a-t-il dit qu'il pouvait faire? A-t-il dit qu'il pourrait faire un nombre particulier qu'il souhaitait voir apparaître? Si c'est le cas, les succès seraient des instances de ce nombre tandis que les échecs seraient autre chose.

— John

@John - Il a seulement prétendu qu'il pouvait faire monter ce nombre plus souvent qu'il ne le ferait autrement, et non pas qu'il arrivera toujours à ce nombre.

— BradC

( À l' origine demandé une version de cette question à math.stackexchange.com/q/57624/14626 )

— BradC

vos réponses en mathématiques par Michael Hardy et TonyK sont toutes les deux assez bonnes.

— John

Je ne serais pas satisfait d'un niveau de confiance aussi bas que 95% ou même 99%; les demandes extraordinaires exigent généralement des preuves extraordinaires. Ou pour le mettre dans un contexte plus bayésien, ma croyance antérieure qu'il avait une telle capacité est si faible que j'aurais besoin d'une quantité ridicule de preuves pour modifier de manière significative ma croyance postérieure.

— Michael McGowan

Réponses:

Je recommanderais d'analyser cela de la manière suivante:

Comptez chaque rôle dans lequel George prédit avec succès le résultat comme un succès, et tous les autres comme un échec. Ensuite, vous calculez facilement une probabilité de succès pour George et un intervalle de confiance de 95% ou 99%. Affirme-t-il qu'il peut prédire le résultat "deux fois plus" qu'en lançant au hasard les dés? Puis:

H0: p> = 1/3

H1: p <1/3

(en supposant un dé à 6 faces).

À partir de là, il est assez simple de faire le test d'hypothèse. De plus, vous pouvez calculer la puissance a priori assez facilement (même dans quelque chose comme Excel). Choisissez un certain nombre de rouleaux (comme 10), puis faites un tableau avec les succès possibles sous forme de lignes (0-10). Ensuite, pour chaque succès, calculez la probabilité qu'il obtienne autant de succès (s'il ne faisait que deviner, ce que nous supposons qu'il fait). En outre, pour chaque valeur, déterminez si cela entraînerait un rejet ou une acceptation du null. Ensuite, pour trouver le pouvoir, vous pouvez simplement additionner toutes les probabilités où le nul serait rejeté.

— random_forest_fanatic
source

Un D20 nécessitera plus de rouleaux pour le même niveau de signification pour George réussissant à coup sûr si vous devez exécuter le test du chi carré. Je ne pense pas que vous ayez besoin d'exécuter le test complet du chis carré. Il vous suffit de vérifier si les dés lancent le nombre "choisi" plus souvent que par hasard. J'utiliserais simplement le cdf du binôme pour calculer la valeur de p en roulant le nombre choisi plus souvent que par hasard avec comme paramètre binomial pour D6. Je pense qu'il est facile de déterminer le nombre fonction de la valeur de p dont vous avez besoin pour réussir George. Je ne suis même pas sûr que vous ayez besoin de sessions Z. Pourquoi ne pas exécuter une seule session de chaque côté du dé. La randomisation du côté choisi importe-t-elle même pour les hypothèses qui vous intéressent? $\theta=\frac{1}{6}$ $X$

— bande passante élevée
source

La randomisation du côté choisi n'a probablement pas d'importance, j'étais juste préoccupé par A) Tenir compte de tout vrai biais possible dans les dés et B) S'assurer qu'une seule session anormale (cette 1 sur 20 en raison du vrai hasard dont j'ai parlé) n'est pas 'pas pris comme une confirmation de sa capacité psychique. Probablement 6 séances, une pour chaque numéro, seraient suffisantes, tant que mon X (et mon niveau de confiance) est suffisamment élevé.

— BradC