Régression vers la moyenne dans «Penser, vite et lentement»


14

Dans Thinking, Fast and Slow , Daniel Kahneman pose la question hypothétique suivante:

(P. 186) Julie est actuellement senior dans une université d'État. Elle lisait couramment quand elle avait quatre ans. Quelle est sa moyenne pondérée cumulative (moyenne cumulative)?

Son intention est d'illustrer comment nous ne tenons souvent pas compte de la régression vers la moyenne lorsque nous faisons des prédictions sur certaines statistiques. Dans la discussion qui a suivi, il conseille:

(P. 190) Rappelons que la corrélation entre deux mesures - en l'occurrence l'âge de lecture et l'AMP - est égale à la proportion de facteurs partagés parmi leurs déterminants. Quelle est votre meilleure estimation de cette proportion? Ma supposition la plus optimiste est d'environ 30%. En supposant cette estimation, nous avons tout ce dont nous avons besoin pour produire une prédiction non biaisée. Voici les instructions pour vous y rendre en quatre étapes simples:

  1. Commencez avec une estimation de la moyenne GPA.
  2. Déterminez l'AMP qui correspond à votre impression des preuves.
  3. Estimer la corrélation entre la précocité de lecture et GPA.
  4. Si la corrélation est de 0,30, déplacez 30% de la distance de la moyenne au GPA correspondant.

Mon interprétation de ses conseils est la suivante:

  1. Utilisez «Elle lisait couramment quand elle avait quatre ans» pour établir un score standard pour la précocité de lecture de Julie.
  2. Déterminez un GPA qui a un score standard correspondant. (Le GPA rationnel à prévoir correspondrait à ce score standard si la corrélation entre le GPA et la précocité de lecture était parfaite.)
  3. Estimer quel pourcentage de variations de GPA peut être expliqué par des variations de précocité de lecture. (Je suppose qu'il fait référence au coefficient de détermination avec "corrélation" dans ce contexte?)
  4. Parce que seulement 30% du score standard de la précocité de lecture de Julie peut être expliqué par des facteurs qui peuvent également expliquer le score standard de son GPA, nous ne pouvons que prédire que le score standard du GPA de Julie sera de 30% de ce qu'il serait. en cas de corrélation parfaite.

Mon interprétation de la procédure de Kahneman est-elle correcte? Si oui, existe-t-il une justification mathématique plus formelle de sa procédure, en particulier l'étape 4? En général, quelle est la relation entre la corrélation entre deux variables et les changements / différences dans leurs scores standard?

Réponses:


2

Mon interprétation de la procédure de Kahneman est-elle correcte?

C'est un peu difficile à dire, car l'étape n ° 2 de Kahneman n'est pas formulée de façon très précise: "Déterminez l'AMP qui correspond à votre impression des preuves" - qu'est-ce que cela signifie exactement? Si les impressions de quelqu'un sont bien calibrées, il ne sera pas nécessaire de corriger vers la moyenne. Si les impressions de quelqu'un sont grossièrement fausses, alors ils devraient plutôt corriger encore plus fort.

Je suis donc d'accord avec @AndyW que les conseils de Kahneman ne sont qu'une règle d'or.

zz

[...] y a-t-il une justification mathématique plus formelle de sa procédure, en particulier l'étape 4? En général, quelle est la relation entre la corrélation entre deux variables et les changements / différences dans leurs scores standard?

yXzρ

y=ρX,

Xyρ

C'est exactement ce que l'on appelle la "régression vers la moyenne". Vous pouvez voir quelques formules et dérivations dans la discussion sur Wikipedia .


8

L'ordre de vos numéros ne correspond pas à la citation de Kahneman. Pour cette raison, il semble que vous manquiez peut-être le point global.

Le premier point de Kahneman est le plus important. Cela signifie littéralement estimer le GPA moyen - pour tout le monde. Le point derrière ce conseil est que c'est votre ancre. Toute prédiction que vous donnez doit faire référence aux changements autour de ce point d'ancrage. Je ne suis pas sûr de voir cette étape dans aucun de vos points!

Kahneman utilise un acronyme, WYSIATI, ce que vous voyez est tout ce qu'il y a. Il s'agit de la tendance humaine à surestimer l'importance des informations actuellement disponibles. Pour beaucoup de gens, les informations sur la capacité de lecture inciteraient les gens à penser que Julie est intelligente, et donc les gens estimeraient le GPA d'une personne intelligente.

Mais, le comportement d'un enfant à quatre ans contient très peu d'informations liées au comportement des adultes. Vous feriez probablement mieux de l'ignorer en faisant des prédictions. Il ne devrait vous balancer que légèrement de votre ancre. En outre, la première estimation des gens d'un GPA de personnes intelligentes peut être très inexacte. En raison de la sélection, la majorité des personnes âgées au collège sont au-dessus de la moyenne.

En fait, il y a d'autres informations cachées dans la question en plus de la capacité de lecture de Julie à quatre ans.

  • Julie est probablement un prénom féminin
  • Elle fréquente une université d'État
  • C'est une personne âgée

Je soupçonne que ces trois caractéristiques augmentent légèrement la moyenne pondérée cumulative par rapport à la population étudiante globale. Par exemple, je parie que les seniors ont probablement un GPA plus élevé que les sophmores parce que les étudiants avec un très mauvais GPA abandonnent.

Ainsi, la procédure de Kahneman (comme hypothétique) se passerait comme quelque chose comme ça.

  1. Le GPA moyen pour une femme senior dans une université d'État est de 3,1.
  2. Je suppose que sur la base de la capacité de lecture avancée de Julie à 4 ans, son GPA est de 3,8
  3. Je suppose que la capacité de lecture à 4 ans a une corrélation de 0,3 avec GPA
  4. Alors 30% du chemin entre 3,1 et 3,8 est 3,3 (ie 3.1 + (3.8-3.1)*0.3)

Donc, dans cette hypothèse, la supposition finale pour le GPA de Julie est de 3,3.

La régression vers la moyenne dans l'approche de Kahneman est que l'étape 2 est susceptible d'être une surestimation brute de l'importance des informations disponibles. Une meilleure stratégie consiste donc à revenir à la moyenne globale. Les étapes 3 et 4 sont des moyens (ad hoc) d'estimer le montant à régresser.


Je comprends l'intuition derrière la procédure, mais pas la justification mathématique. Mon interprétation est que le point d'estimation du GPA moyen est de permettre à quelqu'un d'estimer des GPA spécifiques en termes de scores standard; sinon, ils ne pourraient pas être comparés de manière significative à la lecture de la précocité. (Suite)
Rations

1
Kahneman mentionne que la plupart des gens pensent que GPA = 3,7 ou 3,8, ce qui correspond probablement au score standard qu'ils associent à la précocité de lecture de Julie, mais suppose également implicitement que la corrélation entre les deux variables est parfaite. Je suis principalement confus quant à savoir si l'étape 4 est une règle empirique basée sur l'intuition ou une véritable procédure statistiquement valide (c'est-à-dire, peut-on traiter les scores standard de manière additive et en prendre des proportions en fonction de la corrélation?). S'il ne s'agit que d'une règle de base pour le profane, existe-t-il une méthode d'approximation plus rigoureuse statistiquement?
Rations

Par "additivement", je fais référence à notre hypothèse selon laquelle (1) une certaine proportion du score standard GPA de Julie s'explique par des facteurs qui peuvent également expliquer sa précocité de lecture, que (2) la proportion restante de son score standard GPA est expliquée par des facteurs unique pour expliquer GPA, que (3) ces contributions additionnées sont égales au score standard final GPA que nous prédisons pour Julie, et que (4) nous pouvons corriger notre prédiction en prenant simplement une proportion de notre prédiction biaisée. Est-ce que travailler avec des proportions d'écarts types comme celui-ci - par opposition à, disons, travailler avec leurs racines carrées - est-il valable?
Rations

Il s'agit d'une règle ad hoc. Les étapes deux et trois ne sont pas nécessairement logiquement cohérentes. (Ce sont deux façons différentes de dire la même information, l'une est une taille d'effet et l'autre est une taille d'effet standardisée.)
Andy W
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.