Argument statistique pour expliquer pourquoi 10 000 têtes sur 20 000 lancers suggèrent des données invalides


11

Disons que nous lançons à plusieurs reprises une bonne pièce et que nous savons que le nombre de têtes et de queues devrait être à peu près égal. Quand nous voyons un résultat comme 10 têtes et 10 queues pour un total de 20 lancers, nous croyons les résultats et sommes enclins à croire que la pièce est juste.

Eh bien, quand vous voyez un résultat comme 10000 têtes et 10000 queues pour un total de 20000 lancers, je remets en question la validité du résultat (l'expérimentateur a-t-il simulé les données), car je sais que c'est plus improbable que, disons un résultat de 10093 têtes et 9907 queues.

Quel est l'argument statistique derrière mon intuition?

Réponses:


21

En supposant une pièce équitable, le résultat de 10000 têtes et 10000 queues est en fait plus probable qu'un résultat de 10093 têtes et 9907 queues.

Cependant, lorsque vous dites qu'il est peu probable qu'un véritable expérimentateur obtienne un nombre égal de têtes et de queues, vous invoquez implicitement le théorème de Bayes. Votre croyance antérieure à propos d'une expérience réelle est que Prob (No of heads = 10000 in 20000 tosses | Étant donné que l'expérimentateur ne fait pas semblant) est proche de 0. Ainsi, lorsque vous voyez un résultat réel que le «No of heads = 10000» votre postérieur à propos de Prob (l'expérimentateur ne simule pas le résultat observé de 10 000 têtes) est également proche de 0. Ainsi, vous concluez que l'expérimentateur simule les données.


Très bien expliqué! Quel merveilleux exemple pour l'approche du théorème de Bayes.
Tal Galili

1
@Srikant: cet a priori ne peut pas être formellement défini. Dans tous les cas, Prob (No of heads = X | expérimenter n'est pas truqué) est toujours autour de zéro lorsque N = 20000, quelle que soit la valeur de X et quel que soit votre précédent. Donc, votre postérieur pour tout nombre est également toujours proche de 0. Je ne vois pas ce que cela a à voir avec le théorème de Bayes.
Joris Meys

Tout cela d'un gars qui a été terré en essayant de prouver que Dieu existait. Élégant, vraiment.
Brandon Bertelsen

1
Dans une perspective plus générale, le point avec lequel je suis d'accord est que le théorème de Bayes est à l'œuvre ici. Plus précisément, il existe des probabilités alternatives (correspondant à différents processus génératifs) pour tricher et pour les expérimentateurs honnêtes. L'établissement de la tricherie est une inférence postérieure en ce qui concerne le processus de triche intuitif et donc terriblement sous-spécifié.
conjugateprior

1
@Srikant @whuber: les combinatoires ... vous avez raison. Je suis parti d'une probabilité uniforme, ce qui est bien sûr un non-sens dans ce cas. My bad
Joris Meys

12

J'aime l'explication de Srikant, et je pense que l'idée bayésienne est probablement la meilleure façon d'aborder un problème comme celui-ci. Mais voici une autre façon de le voir sans Bayes: (en R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

qui est d'environ 31,2 sur mon système. En d'autres termes, il est plus de 30 fois plus susceptible de voir 10 sur 20 que de voir 10 000 sur 20 000, même avec une pièce de monnaie équitable dans les deux cas. Ce rapport augmente sans limite à mesure que la taille de l'échantillon augmente.

Il s'agit d'une sorte d'approche du rapport de vraisemblance, mais encore une fois, dans mon instinct, cela ressemble plus à un jugement bayésien.


Pourquoi le ratio? Pourquoi ne pas simplement déclarer que la probabilité de ce tirage exact est extrêmement faible?
Andy W

5
L'affirmation qu'une probabilité particulière est faible hors contexte n'est pas convaincante. La probabilité que je sois exactement aussi grand que ma taille (quelle qu'elle soit) est nulle. Et, oui, il est même difficile de définir la hauteur avec une précision infinie, yada, yada, yada ... Mon point est que le maelström de l'existence tourne avec des événements de probabilité infinitésimale qui se produisent tout le temps! 10000 sur 20000 - hors contexte - ne me surprend pas du tout. Quelle que soit sa probabilité numérique.

9

Un argument bayésien subjectiviste est pratiquement le seul moyen (d'un point de vue statistique) de comprendre votre intuition qui, à proprement parler, fait l'objet d'une enquête psychologique et non statistique. Cependant, il est manifestement injuste - et donc invalide - d'utiliser une approche bayésienne pour affirmer qu'un enquêteur a falsifié les données. La logique est parfaitement circulaire: cela revient à dire "sur la base de mes croyances antérieures sur le résultat, je trouve votre résultat incroyable, et donc vous devez avoir triché". Un tel argument égoïste et illogique ne résiderait évidemment pas dans une salle d'audience ou dans un processus d'examen par les pairs.

α= Un niveau de 5% considérerait tout résultat compris entre 9 996 et 10 004 comme suspect, car (a) cette collection est proche de nos résultats "truqués" hypothétiques et (b) sous l'hypothèse nulle de faux (innocent jusqu'à ce que sa culpabilité ait été prouvée!) , un résultat dans cette plage n'a que 5% (en fait 5,07426%) de chance de se produire. De plus, nous pouvons placer cette approche apparemment ad hoc dans un contexte chi carré (à la Fisher) simplement en quadrillant l'écart entre la proportion observée et la proportion attendue, puis en invoquant le lemme de Neyman-Pearson dans un test unilatéral à la queue basse et en appliquant l' approximation normale à la distribution binomiale .

Bien qu'un tel test ne puisse pas se révéler faux, il peut être appliqué aux futurs rapports de cet expérimentateur pour évaluer la crédibilité de ses affirmations, sans émettre d'hypothèses fâcheuses et insoutenables basées uniquement sur votre intuition. C'est beaucoup plus juste et rigoureux que d'invoquer un argument bayésien pour impliquer quelqu'un qui pourrait être parfaitement innocent et qui s'est avéré tellement malchanceux qu'il a obtenu un beau résultat expérimental!


5

Je pense que votre intuition est défectueuse. Il semble que vous compariez implicitement un seul résultat "très spécial" (exactement 10000 têtes) avec un ensemble de nombreux résultats (tous les nombres "non spéciaux" de têtes proches de 10000). Cependant, la définition de "spécial" est un choix arbitraire basé sur notre psychologie. Que diriez-vous de binaire 10000000000000 (décimal 8192) ou Hex ABC (décimal 2748) - serait-ce aussi étrangement spécial? Comme l'a commenté Joris Meys, l'argument Bayes serait essentiellement le même pour n'importe quel nombre de têtes, ce qui implique que chaque résultat serait suspect.

Pour développer un peu l'argument: vous voulez tester une hypothèse ("l'expérimentateur fait semblant"), puis vous choisissez une statistique de test (nombre de têtes). Maintenant, cette statistique de test est-elle adaptée pour vous dire quelque chose sur votre hypothèse? Pour moi, il semble que la statistique de test choisie ne soit pas informative (pas fonction d'un paramètre spécifié comme valeur fixe dans l'hypothèse). Cela revient à la question de savoir ce que vous entendez par «tricherie». Si cela signifie que l'expérimentateur contrôle la pièce à volonté, cela ne se reflète pas dans la statistique de test. Je pense qu'il faut être plus précis pour trouver un indicateur quantifiable, et donc rendre la question susceptible d'un test statistique.


+1, mais je ne suis pas convaincu. La particularité de 10 000 est qu'il équivaut exactement au nombre attendu de têtes dans l'hypothèse que la pièce est juste. Ce fait est indépendant de toute psychologie ou système de représentation numérique. L'analyse de cette réponse pourrait donner un aperçu d'une situation dans laquelle, disons, 20 005 pièces ont été retournées et 10 000 têtes (et donc 10 005 queues) ont été notées et "l'intuition" suggérée par quelqu'un a eu lieu.
whuber

Je suis tout à fait d'accord que - comme vous le signalez dans votre réponse - tout dépend de la définition a priori de l'hypothèse: si vous définissez à l'avance qu'en "simulant l'expérience", vous entendez "obtenir un résultat pour le nombre de têtes qui est proche de la valeur attendue ", alors c'est une base pour un test statistique avec" nombre de têtes "comme statistique de test. Cependant, sans une telle clarification a priori, la signification de "faux" et de "valeur spéciale pour le nombre de têtes" reste trouble, et on ne sait pas exactement ce qu'ils ont à faire les uns avec les autres.
caracal

4

La conclusion que vous tirerez dépendra TRÈS de la priorité que vous choisissez pour la probabilité de tricherie et de la probabilité antérieure que, étant donné que le flipper ment, x têtes soient signalées.

Mettre le plus de masse sur P (10000 têtes rapportées) est un peu contre-intuitif à mon avis. À moins que le journaliste ne soit naïf, je ne peux pas imaginer que quiconque rapporte ce genre de données falsifiées (en grande partie pour les raisons que vous avez mentionnées dans le message d'origine; c'est trop suspect pour la plupart des gens.) Si la pièce est vraiment injuste et que le flipper devait signaler des données falsifiées, alors je pense qu'un a priori plus raisonnable (et très approximatif) sur les résultats rapportés pourrait être un a priori uniforme discret P (X têtes rapportées | allongées) = 1/201 pour les entiers {9900, ..., 10100} et P (x têtes rapportées | allongées) = 0 pour tous les autres x. Supposons que vous pensez que la probabilité antérieure de mentir est de 0,5. Alors quelques probabilités postérieures sont:

P (allongé | 9900 têtes signalées) = P (allongé | 10100 têtes signalées) = 0,70;

P (allongé | 9950 têtes signalées) = P (allongé | 10050 têtes signalées) = 0,54;

P (mensonge | 10000 têtes signalées) = 0,47.

La plupart des nombres raisonnables de têtes rapportées d'une pièce de monnaie équitable entraîneront des soupçons. Juste pour montrer à quel point les probabilités postérieures sont sensibles à vos aînés, si la probabilité antérieure de tricherie est abaissée à 0,10, alors les probabilités postérieures deviennent:

P (allongé | 9900 têtes signalées) = P (allongé | 10100 têtes signalées) = 0,21;

P (allongé | 9950 têtes signalées) = P (allongé | 10050 têtes signalées) = 0,11;

P (mensonge | 10000 têtes signalées) = 0,09.

Je pense donc que la réponse originale (et très bien notée) pourrait être développée un peu; vous ne devez en aucun cas conclure que les données sont falsifiées sans avoir soigneusement pris en compte les informations préalables. De plus, en y réfléchissant intuitivement, il semble que les probabilités postérieures de mentir soient probablement plus influencées par la probabilité antérieure de mentir plutôt que par la distribution antérieure des têtes rapportées étant donné que le nageoire ment (sauf pour les prieurs qui mettent tout leur masse sur un petit nombre de têtes rapportée étant donné que le flipper est couché, comme dans mon exemple.)


Je pense que c'est une très bonne réponse, mais je ne suis pas d'accord avec votre deuxième paragraphe. Je ne pense pas que la probabilité conditionnelle d'origine de Srikant soit contre-intuitive, et simplement parce que c'est une question difficile à répondre n'est pas un argument contre. Je ne pense pas non plus que votre probabilité uniforme de se situer entre 9900 et 10100 n'a aucun sens, bien qu'elle soit utile à des fins de démonstration.
Andy W

2

Pour l'explication bayésienne, vous avez besoin d'une distribution de probabilité préalable sur les résultats rapportés par un lanceur de pièces menteur, ainsi que d'une probabilité antérieure de mentir. Lorsque vous voyez une valeur qui est beaucoup plus probable sous la distribution des mensonges que celle inversée au hasard, cela rend votre probabilité de mentir postérieure beaucoup plus élevée.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.