Dans Kahneman et Deaton (2010) , les auteurs écrivent ce qui suit:
Cette régression explique 37% de la variance, avec une erreur quadratique moyenne (RMSE) de 0,67852. Pour éliminer les valeurs aberrantes et les rapports de revenus peu plausibles, nous avons supprimé les observations dans lesquelles la valeur absolue de la différence entre le revenu logarithmique et sa prédiction dépassait 2,5 fois le RMSE.
Est-ce une pratique courante? Quelle est l'intuition derrière cela? Il semble quelque peu étrange de définir une valeur aberrante sur la base d'un modèle qui peut ne pas être bien spécifié en premier lieu. La détermination des valeurs aberrantes ne devrait-elle pas être basée sur des fondements théoriques de ce qui constitue une valeur plausible, plutôt que sur la façon dont votre modèle prédit les valeurs réelles?
: Daniel Kahneman, Angus Deaton (2010): Un revenu élevé améliore l'évaluation de la vie mais pas le bien-être émotionnel. Actes de l'Académie nationale des sciences sept. 2010, 107 (38) 16489-16493; DOI: 10.1073 / pnas.1011492107