Régression vers la moyenne contre l'erreur du joueur


29

D'une part, j'ai la régression à la moyenne et d'autre part j'ai l' erreur du joueur .

Le sophisme de Gambler est défini par Miller et Sanjurjo (2019) comme «la croyance erronée que les séquences aléatoires ont une tendance systématique au renversement, c'est-à-dire que les séquences de résultats similaires sont plus susceptibles de se terminer que de continuer». Par exemple, une pièce de monnaie qui tombe plusieurs têtes on pense que les périodes consécutives risquent de tomber de façon disproportionnée lors du prochain essai.

J'ai eu une bonne performance lors du dernier match et, selon la régression vers la moyenne, j'aurai probablement une pire performance lors du prochain match.

Mais selon l'erreur du joueur: considérez les deux probabilités suivantes, en supposant une pièce de monnaie équitable

  1. probabilité de 20 têtes, puis 1 queue =0.520×0.5=0.521
  2. probabilité de 20 têtes, puis 1 tête =0.520×0.5=0.521

Ensuite...

Prenons un exemple simple: une classe d'élèves fait un test vrai / faux de 100 points sur un sujet. Supposons que tous les élèves choisissent au hasard sur toutes les questions. Ensuite, le score de chaque élève serait la réalisation de l'une d'un ensemble de variables aléatoires indépendantes et identiquement distribuées, avec une moyenne attendue de 50.

Naturellement, certains élèves obtiendront un score nettement supérieur à 50 et certains sensiblement inférieur à 50 juste par hasard. Si l'on ne prend que les 10% des meilleurs élèves et leur donne un deuxième test sur lequel ils choisissent à nouveau au hasard sur tous les éléments, le score moyen devrait à nouveau être proche de 50.

Ainsi, la moyenne de ces élèves «régresserait» jusqu'à la moyenne de tous les élèves qui ont passé le test d'origine. Quel que soit le score d'un élève au test d'origine, la meilleure prédiction de son score au deuxième test est de 50.

En particulier Si l'on ne prend que les 10% des élèves les mieux notés et leur donne un deuxième test sur lequel ils choisissent à nouveau au hasard sur tous les items, le score moyen devrait de nouveau être proche de 50.

Selon l'erreur du joueur, ne devrait-on pas s'attendre à la même probabilité de marquer et pas nécessairement plus proche de 50?

Miller, JB et Sanjurjo, A. (2019). Comment l'expérience confirme le sophisme du joueur lorsque la taille de l'échantillon est négligée.


5
Je ne vois pas comment le Gambler's Fallacy est lié aux deux probabilités que vous calculez. Pourriez-vous expliquer plus précisément en quoi consiste cette erreur?
whuber

Votre jeu doit-il avoir la séquence de têtes la plus longue?
AdamO

1
J'aimerais vraiment une explication à cela. Jusqu'à présent, les réponses ne semblent pas encore m'être éclaircie. La régression vers la moyenne semble rendre les événements indépendants dépendants. Peut-être que la régression vers la moyenne ne peut jamais être utilisée pour une seule observation, elle ne s'applique que lorsqu'il existe une moyenne.
icc97

Réponses:


28

Je pense que la confusion peut être résolue en considérant que le concept de «régression vers la moyenne» n'a vraiment rien à voir avec le passé. C'est simplement l'observation tautologique qu'à chaque itération d'une expérience, nous attendons le résultat moyen. Donc, si nous avions auparavant un résultat supérieur à la moyenne, nous nous attendons à un résultat pire, ou si nous avions un résultat inférieur à la moyenne, nous nous attendons à un meilleur. Le point clé est que l' attente elle - même ne dépend d'aucune histoire antérieure comme elle le fait dans l'erreur du joueur.


Exactement. Dans le contexte de ce Q, si les têtes peuvent être interprétées comme un "bon résultat", alors dans les exemples du PO, un résultat pire est susceptible de suivre après une chaîne de bons résultats et un meilleur résultat est susceptible de suivre après une chaîne de mauvais résultats. .
amibe dit Réintégrer Monica

5
Il semble que vous vous contredisez. Vous déclarez the expectation itself does not depend on any previous historyet if we previously had an above average outcome then we expect a worse result. Vous utilisez le mot attendre aux deux endroits et parlez de l' histoire passée / précédente aux deux endroits.
Erik

6
Il n'y a aucune contradiction. Nous ne nous attendons pas à un résultat pire parce que les résultats dépendent en fait les uns des autres, nous nous attendons à un résultat pire parce que nous en avons vu un qui était supérieur à nos attentes. L'attente elle-même est constante et ne change pas du fait de voir le résultat antérieur.
dsaxton

@Erik Peut-être qu'une reformulation pourrait aider, mais le point à noter est de savoir comment différencier les deux aspects. Premièrement, nous nous attendons à un résultat moyen, ou plutôt le croyons le plus probable. Lorsque l'on compare avec un résultat réel, cette attente peut être relativement bonne ou mauvaise selon la façon dont ce résultat était bon ou mauvais par rapport à nos attentes. Nous ne gagnons aucune information sur l'avenir! Nous comparons seulement nos résultats réels à une moyenne (ce commentaire est maintenant redondant, mais je le laisse)
Wedstrom

9
Pas de vote positif, car votre réponse souffre de l'ambiguïté qui a suscité la question en premier lieu. À savoir, qu'est-ce qu'un «pire» résultat après un résultat supérieur à la moyenne? Le PO l'interprète comme «pire que la moyenne» (une interprétation qui semble intuitivement correcte à cause de l'erreur juste du monde) tandis que la régression vers la moyenne signifie qu'elle sera «pire que l'histoire». Sans effacer cette source de confusion, votre (bonne) réponse n'est compréhensible que pour ceux qui connaissent déjà la bonne réponse. Si vous le modifiez sous une forme ou une autre, vous obtiendrez mon vote positif.
rumtscho

17

Si vous deviez vous trouver dans une telle position, en tant que personne rationnelle (et en supposant une pièce de monnaie équitable), votre meilleur pari serait de deviner. Si vous deviez vous retrouver dans une position de joueur superstitieux, votre meilleur pari serait de regarder les événements antérieurs et d'essayer de justifier votre raisonnement sur le passé - par exemple, "Wow, les têtes sont chaudes , il est temps de bouger!" ou "Il n'y a aucun moyen de voir une autre tête - la probabilité de ce genre de séquence est incroyablement faible!".

L'erreur du joueur ne se rend pas compte que chaque chaîne particulière de 20 pièces nous jette incroyablement improbable - par exemple, il est très peu probable de retourner 10 têtes puis 10 queues, très peu probable de retourner des têtes et des queues alternées, très peu probable de se diviser en 4, etc. Il est même très peu probable de retourner HHTHHTTTHT .. car pour n'importe quelle chaîne, il n'y a qu'une seule façon pour que cela se produise à partir de nombreux résultats différents . Ainsi, confondre l'un de ces éléments comme "probable" ou "improbable" est une erreur, car ils sont tous équiprobables.

La régression vers la moyenne est la croyance justifiée qu'à long terme, vos observations devraient converger vers une valeur attendue finie. Par exemple, je parie que 10 des 20 lancers de pièces sont bons car il existe de nombreuses façons d'y parvenir. Un pari sur 15 sur 20 est beaucoup moins probable car il y a beaucoup moins de chaînes qui atteignent ce décompte final. Il convient de noter que si vous vous asseyez et que vous lancez des pièces (passables) assez longtemps, vous vous retrouverez finalement avec quelque chose qui est à peu près 50/50 - mais vous ne vous retrouverez pas avec quelque chose qui n'a pas de "stries" ou autre improbable événements en elle. C'est le cœur de la différence entre ces deux concepts.

TL; DR : La régression vers la moyenne indique qu'au fil du temps, vous vous retrouverez avec une distribution qui reflète celle attendue dans n'importe quelle expérience. Le sophisme du joueur (à tort) dit que chaque tirage individuel d'une pièce a de la mémoire quant aux résultats précédents, ce qui devrait avoir un impact sur le prochain résultat indépendant.


1
Le sophisme du joueur est-il donc un mauvais concept? Je n'ai pas pu comprendre l'essentiel de cela. Désolé
Luis P.

6
L'erreur du joueur est ... eh bien ... une erreur. C'est faux, c'est un mauvais raisonnement. La régression vers la moyenne est une pure statistique, cependant :)
Derek Janni

1
Regression to the mean is the rightly-founded belief that in the long run, your observations should converge to a finite expected value- C'est la « illusion du joueur » - qui après une série de têtes, queues est maintenant plus probable, car avec une pièce de monnaie de juste il convergera ...
Izkata

2
@Izkata Pas tout à fait. La régression vers la moyenne indique qu'avec un grand nombre d'essais, les stries de chaque côté devraient à peu près s'équilibrer, et plus vous faites d'essais, plus vous vous rapprochez de la vraie moyenne. Si vous avez retourné suffisamment pour obtenir une séquence de 100 têtes, vous avez probablement également des séquences de queues pour l'équilibrer quelque part dans votre distribution, car des séquences de têtes et de queues sont tout aussi probables. Il est important de noter que la régression vers la moyenne ne fait aucune hypothèse sur une donnée spécifique, mais uniquement sur les valeurs agrégées à mesure que la taille de l'échantillon augmente.
Ethan

1
L'illusion de @Izkata Gambler fait des déclarations sur ce qui se produira avec un résultat particulier, la régression vers la moyenne fait une déclaration générale sur ce que nous attendons de nombreux résultats.
Derek Janni

5

J'essaie toujours de me rappeler que la régression vers la moyenne n'est pas un mécanisme compensatoire pour observer les valeurs aberrantes.

Il n'y a pas de relation de cause à effet entre avoir un parcours de jeu exceptionnel, puis aller 50-50 après cela. C'est juste un moyen utile de se rappeler que, lorsque vous échantillonnez à partir d'une distribution, vous êtes le plus susceptible de voir des valeurs proches de la moyenne (pensez à ce que l'inégalité de Chebyshev a à dire ici).


2
Yay Chebyshev! Bon point!
Derek Janni

4

Voici un exemple simple: vous avez décidé de lancer un total de 200 pièces. Jusqu'à présent, vous en avez lancé 100 et vous avez été extrêmement chanceux: 100% sont venus en tête (incroyable, je sais, mais restons simples).

Conditionnel à 100 têtes lors des 100 premiers lancers, vous vous attendez à avoir 150 têtes au total à la fin de la partie. Un exemple extrême de l' erreur du joueur serait de penser que vous n'attendez toujours que 100 têtes au total (c'est-à-dire la valeur attendue avant de commencer le jeu), même après avoir obtenu 100 dans les 100 premiers lancers. Le joueur pense fallacieusement que les 100 prochains lancers doivent être des queues. Un exemple de régression vers la moyenne (dans ce contexte) est que votre taux de 100% devrait tomber à 150/200 = 75% (c'est-à-dire vers la moyenne de 50%) à la fin du jeu.


1
@whuber, ce n'est pas l'exemple classique de la hauteur des pères et des fils, mais je dirais que cela satisfait la définition de wikipedia: "la régression vers (ou vers) la moyenne est le phénomène selon lequel si une variable [par exemple les têtes de fraction dans le lancer de pièces] est extrême sur sa première mesure, il aura tendance à se rapprocher de la moyenne sur sa deuxième mesure "
Adrian

3
Attention à Wikipédia: son langage introductif est juste destiné à donner une idée heuristique, mais c'est rarement une définition. Votre citation n'est en fait ni une définition (car elle n'indique pas ce que signifie «extrême»), ni correcte dans la plupart des interprétations. Par exemple, pour une variable aléatoire continue il y a exactement un chance que le second de deux essais indépendants est plus de la moyenne que la première. 1/2
whuber

1
Je pense qu'il peut être plus important de fournir une description claire du sophisme du joueur et de la régression à la moyenne que d'offrir des exemples. Lorsque seuls les exemples sont donnés, il n'est pas clair comment ils doivent être compris ou comment ils se rapportent à ces deux sujets.
whuber

1
En tant que personne qui pense de la même manière que le PO, votre deuxième paragraphe est le seul exemple dans toutes les réponses qui explique clairement quelle est la différence. Maintenant, cela a plus de sens.
Izkata

1
@whuber C'est exactement ce que font la plupart des autres réponses, et elles ne m'éclairaient pas du tout.
Izkata

2

Je peux me tromper, mais j'ai toujours pensé que la différence résidait dans l'hypothèse de l'indépendance.

Dans l'erreur du joueur, le problème est le malentendu sur l'indépendance. Bien sûr, sur un grand nombre N de lancers de pièces, vous serez autour d'une répartition 50-50, mais si par hasard vous n'êtes pas, alors la pensée que vos prochains lancers T aideront à égaliser les chances est fausse car chaque lancer de pièces est indépendant de la précédente.

La régression vers la moyenne est, là où je la vois utilisée, une idée que les tirages dépendent des tirages précédents ou d'une moyenne / valeurs calculées précédentes. Par exemple, utilisons le pourcentage de tir NBA. Si le joueur A a réalisé en moyenne 40% de ses tirs au cours de sa carrière et entame une nouvelle année en tirant à 70% lors de ses 5 premiers matchs, il est raisonnable de penser qu'il régressera à la moyenne de sa moyenne de carrière. Il y a des facteurs dépendants qui peuvent et vont influencer son jeu: les séquences chaudes / froides, le jeu des coéquipiers, la confiance et le simple fait que s'il maintenait 70% de tir pour l'année, il anéantirait absolument plusieurs enregistrements qui sont tout simplement des exploits physiques impossibles. (sous les capacités de performance actuelles des joueurs de basket-ball professionnels). À mesure que vous jouez à plus de jeux, votre pourcentage de tir chutera probablement plus près de votre moyenne de carrière.


Votre explication de la régression à la moyenne ressemble plus à un estimateur de rétrécissement. Pourriez-vous donner une définition précise de ce que vous entendez réellement par «régression»?
whuber

Je suivais l'idée de «Le phénomène se produit parce que les résultats des élèves sont déterminés en partie par la capacité sous-jacente et en partie par hasard» de Wikipedia. D'après ce que je comprends, même s'il existe un niveau de probabilité, les résultats sont déterminés par une certaine capacité sous-jacente.
Marsenau

2
Merci pour cette précision. Il n'est pas évident de savoir comment cette idée s'applique à l'idée qu'à mesure que sa carrière progresse, sa moyenne se rapproche de la moyenne de carrière. Cela ressemble à une tautologie ou à une version d'une loi des grands nombres. En fait, cela ressemble terriblement au sophisme du joueur lui-même!
whuber

1
Ou votre moyenne de carrière augmentera pour répondre à vos nouvelles capacités. :) Je pense que c'est une erreur de bouer l'eau avec une compétence améliorable.
Erik

1
"incompréhension de l'indépendance" - cela semble être le point critique. La régression vers la moyenne semble rendre les événements indépendants dépendants.
icc97

2

La clé est que nous n'avons aucune information qui nous aidera avec le prochain événement (erreur du joueur), car le prochain événement ne dépend pas de l'événement précédent. Nous pouvons faire une estimation raisonnable du déroulement d'une série d'essais. Cette estimation raisonnable est la moyenne aka notre résultat moyen attendu. Ainsi, lorsque nous observons une déviation de la tendance moyenne vers la moyenne, au fil du temps / essais, nous assistons alors à une régression vers la moyenne.

Comme vous pouvez le voir, la régression vers la moyenne est une série d'actions observées , ce n'est pas un prédicteur. Au fur et à mesure que de nouveaux essais sont menés, les choses se rapprocheront davantage d'une distribution normale / gaussienne. Cela signifie que je ne fais aucune hypothèse ni ne devine quel sera le prochain résultat. En utilisant la loi des grands nombres, je peux théoriser que même si les choses ont tendance à évoluer dans un sens actuellement, avec le temps, les choses s'équilibreront. Lorsqu'ils s'équilibrent, l'ensemble de résultats a régressé jusqu'à la moyenne. Il est important de noter ici que nous ne disons pas que les futurs essais dépendent des résultats passés. J'observe simplement un changement dans l'équilibre des données.

Le sophisme du joueur, si je comprends bien, est plus immédiat dans ses objectifs et se concentre sur la prédiction d'événements futurs. Cela suit ce que désire un joueur. En règle générale, les jeux de hasard sont dirigés contre le joueur à long terme, de sorte qu'un joueur veut savoir quel sera le prochain essai, car il veut capitaliser sur ces connaissances. Cela conduit le joueur à supposer à tort que le prochain essai dépend de l'essai précédent. Cela peut conduire à des choix neutres comme:

Les cinq dernières fois, la roulette a atterri sur le noir, donc la prochaine fois, je parie gros sur le rouge.

Ou le choix peut être égoïste:

J'ai obtenu un full avec les 5 dernières mains, donc je vais miser gros car je suis sur une séquence de victoires et je ne peux pas perdre.


Comme vous pouvez le voir, il existe quelques différences clés:

  1. La régression vers la moyenne ne suppose pas que les essais indépendants soient dépendants comme l'erreur du joueur.

  2. La régression vers la moyenne est appliquée sur une grande quantité de données / essais, où l'erreur du joueur est concernée par l'essai suivant.

  3. La régression vers la moyenne décrit ce qui s'est déjà produit. Le sophisme de Gambler tente de prédire l'avenir sur la base d'une moyenne attendue et des résultats passés.


1
En fait, je ne pense pas que la régression vers la moyenne ait quoi que ce soit à voir avec la loi des grands nombres ou qu'elle signifie ce que vous dites qu'elle fait dans la première phrase.
amibe dit Réintégrer Monica

@amoeba donc si nous prévoyons de lancer 100 fois une pièce et de 20 lancer dans l'épreuve, nous avons 20 têtes. À la fin du procès, nous avons 55 têtes. J'essaie de dire que ce serait un exemple de «régression vers la moyenne». Tout a commencé de façon déséquilibrée, mais avec le temps, il s'est normalisé. La loi des bits de grands nombres était une autre façon d'exprimer l'idée que les choses s'établiront en moyenne sur suffisamment d'essais, ce qui revient à dire qu'un déséquilibre initial s'équilibrera avec le temps ou régressera vers la moyenne.
Erik

1
Je suppose que je commence à comprendre l'essentiel de ces thèmes avec vos clés, Erik. Beau! :) xxx
Luis P.

2

Les élèves ayant des notes plus élevées obtiennent-ils de moins bons résultats aux nouveaux tricheurs?

La question a reçu une révision substantielle depuis la dernière des six réponses.

100

Ou devraient-ils simplement rester à l'écart de la roulette?

50%50%10050

60%2.8%30006085

8560%50%10060%2.8%2852.8%8560%

50%1005050

Pièces de monnaie chanceuses et flips chanceux

100055%G100045%B1000F) et les distribuer au hasard. Ceci est analogue à l'hypothèse d'une capacité / connaissance supérieure et inférieure dans l'exemple de prise de test, mais il est plus facile de raisonner correctement sur les objets inanimés.

(551000+451000+501000)/3000=5060%18.3%0.2%2.8%60%7.1%60%21

2160%50%10086%=18.3%/(18.3%+0.2%+2.8%)1%=0.2%/(18.3%+0.2%+2.8%)13%86%55+1%45+13%50=54.251006050

Ainsi, même lorsque certaines pièces sont meilleures que d'autres, le caractère aléatoire des pièces retournées signifie que la sélection des meilleurs joueurs d'un test affichera toujours une régression vers la moyenne dans un nouveau test. Dans ce modèle modifié, la neutralité n'est plus une erreur pure et simple - un meilleur score au premier tour signifie une probabilité plus élevée d'avoir une bonne pièce! Cependant, l'erreur du joueur est toujours une erreur - ceux qui ont eu de la chance ne peuvent pas être compensés par la malchance lors du nouveau test.


J'ai juste une idée. Je vais simuler ce modèle et voir comment cela fonctionne.
Luis P.

1

Ils disent la même chose. Vous étiez surtout confus parce qu'aucune expérience unique dans l'exemple de coin flip n'a un résultat extrême (H / T 50/50). Changez-le en "retournant dix pièces justes en même temps dans chaque expérience", et les joueurs veulent les obtenir tous correctement. Une mesure extrême serait alors que vous vous aperceviez que tous sont des têtes.

Erreur du joueur: Traitez chaque résultat de jeu (résultat de retournement de pièce) comme un ID . Si vous connaissez déjà la distribution de ces partages IID, la prochaine prédiction devrait provenir directement de la distribution connue et n'a rien à voir avec les résultats historiques (ou futurs) (autrement dit les autres IID).

Régression vers la moyenne: Traitez chaque résultat de test comme un IID (puisque l'étudiant est supposé deviner au hasard et n'a aucune compétence réelle). Si vous connaissez déjà la distribution de ces partages IID, alors la prochaine prédiction vient directement de la distribution connue et n'a rien à voir avec les résultats historiques (ou futurs) (aka autre IID) ( exactement comme avant jusqu'ici ). Mais, par CLT , si vous avez observé des valeurs extrêmes dans une mesure (par exemple, par hasard, vous n'échantillonniez que les 10% des meilleurs élèves du premier test), vous devriez savoir que le résultat de votre prochaine observation / mesure sera toujours généré à partir de la valeur connue. distribution (et donc plus susceptibles d'être plus proches de la moyenne que de rester à l'extrême).

Donc, fondamentalement, ils disent tous les deux que la prochaine mesure proviendra de la distribution plutôt que des résultats passés.


Ce n'est pas une citation correcte du théorème de la limite centrale. C'est simplement une déclaration de ce qu'est un événement indépendant.
AdamO

0

Soit X et Y deux variables aléatoires uniformes iid sur [0,1]. Supposons que nous les observions les uns après les autres.

Erreur du joueur: P (Y | X)! = P (Y) C'est, bien sûr, un non-sens car X et Y sont indépendants.

Régression vers la moyenne: P (Y <X | X = 1)! = P (Y <X) Cela est vrai: LHS est 1, LHS <1


0

Merci vos réponses, je pense que je pouvais comprendre la différence entre la régression à la moyenne et l'erreur de Gambler. Plus encore, j'ai construit une base de données pour m'aider à illustrer dans le "vrai" cas.

J'ai construit cette situation: j'ai rassemblé 1000 étudiants et je les ai mis à faire un test en répondant aléatoirement à des questions.

Le score du test varie de 01 à 05. Comme ils répondent à des questions au hasard, chaque score a donc 20% de chances d'être atteint. Donc, pour le premier test, le nombre d'élèves avec un score de 05 devrait être proche de 200

10000,20

200

J'ai eu 196 étudiants avec un score de 05, ce qui est très proche des 200 étudiants attendus.

J'ai donc mis ces 196 étudiants répéter le test est prévu 39 étudiants avec le score 05.

1960,20

39

Eh bien, selon le résultat, j'ai obtenu 42 étudiants, ce qui est conforme aux attentes.

Pour ceux qui ont obtenu le score 05, je leur ai demandé de répéter le test et ainsi de suite ...

Par conséquent, les chiffres attendus étaient les suivants:

RETEST 03 prévu

420,20

8

(3.3) Résultats (8)

RETEST 04 prévu

80,20

1,2

(4.3) Résultats (2)

RETEST attendu 05

20,20

0,1

(4.3) Résultats (0)

0,204

0,205=0,00032

0,000323500=1.2

Par conséquent, la probabilité qu'un élève obtienne le score 05 dans les 05 tests n'a rien à voir avec son dernier score, je veux dire, je ne dois pas calculer la probabilité sur chaque test individuellement. Je dois rechercher ces 05 tests comme un événement et calculer la probabilité de cet événement.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.