Avant d'aborder ce sujet, il est important de reconnaître que la faute statistique de «supprimer les valeurs aberrantes» a été incorrectement promulguée dans une grande partie de la pédagogie statistique appliquée. Traditionnellement, les valeurs aberrantes sont définies comme des observations à fort effet de levier et à forte influence. On peut et doit identifier de telles observations dans l'analyse des données, mais ces conditions seules ne justifient pas de supprimer ces observations. Une «véritable valeur aberrante» est une observation à fort effet de levier / influence élevée qui n'est pas compatible avec les réplications du plan expérimental. Pour considérer une observation comme telle, il faut une connaissance spécialisée de cette population et de la science derrière le «mécanisme de génération de données». L'aspect le plus important est que vous devriez être en mesure d'identifier les valeurs aberrantes potentielles a priori .
Quant à l'aspect bootstrap des choses, le bootstrap est destiné à simuler des tirages répétés indépendants de la population d'échantillonnage. Si vous prédéfinissez des critères d'exclusion dans votre plan d'analyse, vous devez toujours laisser les valeurs exclues dans la distribution d'échantillonnage bootstrap référent . En effet, vous tiendrez compte de la perte de puissance due à l'application d'exclusions après l'échantillonnage de vos données. Cependant, s'il n'y a pas de critères d'exclusion prédéfinis et que les valeurs aberrantes sont supprimées à l'aide d' un arbitrage post hoc , comme je le fais manifestement contre, la suppression de ces valeurs propagera les mêmes erreurs d'inférence qui sont causées par la suppression des valeurs aberrantes.
Considérons une étude sur la richesse et le bonheur dans un échantillon aléatoire simple non stratifié de 100 personnes. Si nous prenions la déclaration, "1% de la population détient 90% de la richesse mondiale" littéralement, alors nous observerions, en moyenne, une valeur très fortement influente. Supposons en outre qu'au-delà de l'offre d'une qualité de vie de base, il n'y ait pas d'excès de bonheur attribuable à des revenus plus élevés (tendance linéaire non constante). Cet individu a donc également un fort effet de levier.
Le coefficient de régression des moindres carrés correspond aux données non altérées estimant une tendance moyenne de premier ordre de la population dans ces données. Il est fortement atténué par notre 1 individu dans l'échantillon dont le bonheur est compatible avec ces niveaux de revenu proches de la médiane. Si nous supprimons cet individu, la pente de régression des moindres carrés est beaucoup plus grande, mais la variance du régresseur est réduite, donc l'inférence sur l'association est approximativement la même. La difficulté avec cela est que je n'ai pas prédéfini les conditions dans lesquelles les individus seraient exclus. Si un autre chercheur reproduisait ce plan d'étude, il échantillonnerait en moyenne une personne à revenu élevé, modérément heureuse, et obtiendrait des résultats qui ne correspondraient pas à mes résultats «parés».
Si nous étions a priori intéressés par l'association du bonheur à revenu modéré, nous aurions dû préspécifier que, par exemple, «nous comparerions des personnes gagnant moins de 100 000 $ de revenu annuel du ménage». Ainsi, la suppression de la valeur aberrante nous amène à estimer une association que nous ne pouvons pas décrire, donc les valeurs de p n'ont pas de sens.
D'un autre côté, les équipements médicaux mal étalonnés et les mensonges facétieux d'auto-évaluation peuvent être supprimés. Plus les critères d'exclusion peuvent être décrits avec précision avant que l'analyse proprement dite ait lieu, plus les résultats que cette analyse produira seront valides et cohérents.