C'est un domaine où il y a un peu d'incohérence dans la terminologie qui a le malheur de confondre certaines discussions statistiques. Le concept de " inlier ""est généralement utilisé pour faire référence à une valeur de données qui est erronée (c'est-à-dire sujette à une erreur de mesure) mais qui est néanmoins à" l'intérieur "de la distribution des valeurs correctement mesurées. Par cette définition, la valeur aberrante a deux aspects: (1 ) elle se trouve à l'intérieur de la distribution pertinente des valeurs et (2) c'est une valeur erronée. Au contraire, la notion correspondante de "valeur aberrante" est généralement utilisée pour faire référence à toute valeur de données qui est loin dans la queue de la distribution, mais sans aucun aspect définitionnel en supposant qu'elle est erronée. Cette terminologie produit une incohérence malheureuse, où une "valeur aberrante" est un point de données erroné (par définition) mais une "valeur aberrante" n'est pas nécessairement un point de données erroné. Par conséquent, sous cette terminologie, l'union des "valeurs aberrantes" et des "valeurs aberrantes"ne correspond ni à toutes les données, ni même à toutes les données erronées.
Traiter les valeurs aberrantes: J'ai discuté du traitement des valeurs aberrantes dans d'autres questions ici et ici , mais pour plus de commodité, je vais répéter certaines de ces remarques ici. Les valeurs aberrantes sont des points qui sont éloignés de la majeure partie des autres points d'une distribution, et le diagnostic d'une «valeur aberrante» se fait en comparant le point de données à une forme de distribution supposée. Bien que des valeurs aberrantes puissent parfois être causées par une erreur de mesure, le diagnostic des valeurs aberrantes peut également se produire lorsque les données suivent une distribution avec un kurtosis élevé (c.-à-d. Queues grasses), mais l'analyste compare les points de données à une forme de distribution supposée avec un kurtosis faible (par exemple, la distribution normale).
Le signalement des «valeurs aberrantes» dans les tests de valeurs aberrantes signifie simplement que la distribution du modèle que vous utilisez n'a pas suffisamment de queues pour représenter avec précision les données observées. Cela peut être dû au fait que certaines données contiennent une erreur de mesure, ou elles peuvent simplement provenir d'une distribution avec de grosses queues. À moins qu'il y ait une raison de penser que l'écart par rapport à la forme du modèle présumé constitue une preuve d'erreur de mesure (ce qui nécessiterait une base théorique pour l'hypothèse de distribution), la présence de valeurs aberrantes signifie généralement que vous devez modifier votre modèle pour utiliser une distribution plus grosse queues. Il est intrinsèquement difficile de distinguer entre l'erreur de mesure et le kurtosis élevé qui fait partie de la distribution sous-jacente.
Traiter les inliers (ce qui implique généralement de ne pas les traiter): à moins d'avoir une source d'informations externes indiquant une erreur de mesure, il est essentiellement impossible d'identifier les "inliers". Par définition, ce sont des points de données qui se trouvent à "l'intérieur" de la distribution, où se trouvent la plupart des autres données. Par conséquent, il n'est pas détecté par les tests qui recherchent des données qui sont une "aberration" des autres points de données. (Dans certains cas, vous pouvez détecter des "valeurs aberrantes" qui semblent être à l'intérieur d'une distribution, mais qui sont en fait des "valeurs aberrantes" lorsqu'elles sont prises par rapport à une représentation plus complexe de la distribution. Dans ce cas, le point est en fait une valeur aberrante,
Dans de rares cas, vous pourriez avoir une source externe d'informations qui identifie un sous-ensemble de vos données comme étant sujet à une erreur de mesure (par exemple, si vous effectuez une grande enquête et que vous découvrez qu'un de vos enquêteurs était en train de créer leurs données ). Dans ce cas, tous les points de données dans ce sous-ensemble qui sont à l'intérieur de la distribution sont des "inliers" et sont connus via des informations externes pour être sujets à des erreurs de mesure. Dans ce cas, vous supprimeriez généralement toutes les données connues pour être erronées, même si certaines sont des "inliers" qui se trouvent à l'intérieur de la distribution où vous vous attendez à ce qu'elles se trouvent. Le point ici est qu'un point de données peut être erroné même s'il n'est pas dans la queue de la distribution.