Abandon des valeurs aberrantes sur la base de «2,5 fois le RMSE»

Dans Kahneman et Deaton (2010) , les auteurs écrivent ce qui suit: $^\dagger$

Cette régression explique 37% de la variance, avec une erreur quadratique moyenne (RMSE) de 0,67852. Pour éliminer les valeurs aberrantes et les rapports de revenus peu plausibles, nous avons supprimé les observations dans lesquelles la valeur absolue de la différence entre le revenu logarithmique et sa prédiction dépassait 2,5 fois le RMSE.

Est-ce une pratique courante? Quelle est l'intuition derrière cela? Il semble quelque peu étrange de définir une valeur aberrante sur la base d'un modèle qui peut ne pas être bien spécifié en premier lieu. La détermination des valeurs aberrantes ne devrait-elle pas être basée sur des fondements théoriques de ce qui constitue une valeur plausible, plutôt que sur la façon dont votre modèle prédit les valeurs réelles?

$\dagger$ : Daniel Kahneman, Angus Deaton (2010): Un revenu élevé améliore l'évaluation de la vie mais pas le bien-être émotionnel. _{^{Actes de l'Académie nationale des sciences sept. 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107}}

regression outliers

— Fourchelangue
source

Lorsque vous donnez un devis à partir d'un papier, donnez toujours une référence qui inclut le numéro de page .

— Rétablir Monica le

Je ne peux pas dire s'il s'agit d'une «pratique courante», mais j'espère que non. L'élimination automatique des «valeurs aberrantes» est fondamentalement une mauvaise idée. Peut-être que votre modèle ou critère de suppression n'est pas bon, peut-être qu'il y a quelque chose de nouveau en cours (début de ralentissement, nouvelles possibilités qui s'éveillent) que vous ne devriez pas ignorer. // C'est différent si vous pouvez suivre une valeur suspecte pour une erreur de saisie de données ou une panne d'équipement, ou si la valeur est simplement absurde (homme de 16'2 ", homme avec 61 heures facturables mardi dernier, 25 minutes de vol) SFO-ORD). Mais pas parce que ça ne correspond pas à un modèle. Je connais une startup qui a fait

— faillite de

La validité statistique de cette approche est reflétée par le nombre absurde de décimales qu'ils rapportent pour le RMSE.

— Frans Rodenburg

Cela ressemble à une solution d'hypothèse brute / héroïque à une question que j'ai posée il y a quelques mois: stats.stackexchange.com/questions/390051/…

— Adrian

La raison de la suppression de ces données est indiquée juste dans la citation: à savoir, "éliminer les valeurs aberrantes et les rapports de revenus peu plausibles". Le fait qu'ils se réfèrent à ces deux choses conjointement signifie qu'ils concèdent qu'au moins certaines de leurs valeurs aberrantes ne sont pas des valeurs invraisemblables, et en tout cas, ils ne donnent aucun argument pour expliquer pourquoi les valeurs avec un résidu élevé devraient être considérées comme "invraisemblables" "valeurs de revenu. Ce faisant, ils suppriment efficacement les points de données car les résidus sont plus élevés que ce qui est attendu dans leur modèle de régression. Comme je l'ai indiqué dans une autre réponse ici , cela revient à exiger que la réalité se conforme à vos hypothèses de modèle et à ignorer les parties de la réalité qui ne sont pas conformes à ces hypothèses.

Que ce soit ou non une pratique courante, c'est une terrible pratique. Cela se produit parce que les points de données périphériques sont difficiles à traiter et que l'analyste ne veut pas les modéliser correctement (par exemple, en utilisant un modèle qui permet un kurtosis plus élevé en termes d'erreur), ils suppriment donc simplement les parties de la réalité qui ne le font pas. se conformer à leur capacité à entreprendre une modélisation statistique. Cette pratique est statistiquement indésirable et elle conduit à des déductions qui sous-estiment systématiquement la variance et le kurtosis en termes d'erreur. Les auteurs de cet article rapportent qu'ils ont perdu 3,22% de leurs données en raison de la suppression de ces valeurs aberrantes (p. 16490). Étant donné que la plupart de ces points de données auraient été des revenus très élevés, cela jette un doute substantiel sur leur capacité à tirer des conclusions solides sur l'effet des revenus élevés (ce qui est l'objectif de leur article).

— Réintégrer Monica
source

Comment osez-vous critiquer le Daniel Kahneman! Blagues à part, ce sont de très bons points +1.

— Tim

Kahneman est un très bon psychologue, dont j'ai généralement apprécié les livres et les ai trouvés utiles. Ils pourraient chacun avoir cinquante prix Nobel --- cela ne changerait pas le fait que l'élimination massive des "valeurs aberrantes" est une terrible pratique statistique.

— Rétablir Monica le

Naturellement, je suis d'accord avec vous. Je ne pensais pas que cela devait être dit.

— Nick Cox

@NickCox Vous voulez dire le soi-disant "Prix Nobel Memorial" : comme je suis sûr que vous savez qu'il n'a pas été créé par Nobel et n'a rien à voir avec lui vraiment. Le nom officiel est apparemment "Le prix Sveriges Riksbank en sciences économiques à la mémoire d'Alfred Nobel".

— amibe dit Réintégrer Monica

Vous êtes sûr que je le sais et vous avez en effet raison. L'EJMR, qui fait toujours autorité, a une fois publié cet article sur moi "Non, il ne gagnera jamais le Nobel", ce qui signifie ce prix.

— Nick Cox