Fringeliers semble être défini comme un type de valeur aberrante moins extrême. C'est-à-dire des données en marge de la distribution.
Par exemple, si vous définissiez un seuil pour les valeurs aberrantes, les fringeliers pourraient être opérationnalisés pour être les valeurs qui sont proches de chaque côté du seuil (par exemple, pour un seuil de 3 SD, entre 2,7 et 3,3 SD de la moyenne).
Osborne et Overbay (2008) écrivent ce qui suit:
Bien que les définitions varient, une valeur aberrante est généralement considérée comme un point de données qui est bien en dehors de la norme pour une variable ou une population (par exemple, Jarrell, 1994; Rasmussen, 1988; Stevens, 1984). Hawkins (1980) a décrit une valeur aberrante comme une observation qui «s'écarte tant des autres observations qu'elle éveille des soupçons qu'elle a été générée par un mécanisme différent» (p. 1). Les valeurs aberrantes ont également été définies comme des valeurs «douteuses aux yeux du chercheur» (Dixon, 1950, p. 488) et des contaminants (Wainer, 1976).
Et continuer pour introduire le terme "fringelier" de Wainer (1976)
Wainer (1976) a également introduit le concept de «fringelier», se référant aux «événements inhabituels qui se produisent plus souvent que rarement» (p. 286). Ces points se situent près de trois écarts-types de la moyenne et peuvent donc avoir une influence disproportionnée sur les estimations des paramètres, mais ne sont pas aussi évidents ou facilement identifiables que les valeurs aberrantes ordinaires en raison de leur proximité relative avec le centre de distribution.
Quelques exemples:
Dans certains contextes, les valeurs aberrantes suggèrent que les données ne sont pas valides. Par exemple, si la taille d'un homme est enregistrée comme étant de 8 pieds de haut (disons 6,5 SD au-dessus de la moyenne), il s'agit probablement d'une mesure non valide. En revanche, si la taille d'une personne est enregistrée comme 6 pieds 10 pouces de hauteur (3 SD au-dessus de la moyenne - un fringelier), cela pourrait être une mesure valide, mais également, cela pourrait suggérer un problème de mesure car cela est assez rare. Le fait est que déterminer si une valeur est invalide devient plus difficile, moins la valeur devient extrême.
Dans d'autres contextes, les valeurs aberrantes sont une préoccupation car elles ont une influence excessive sur les estimations des paramètres, en particulier lors de l'utilisation de méthodes statistiques standard utilisant les moindres carrés, etc. Ainsi, les fringeliers peuvent avoir un impact plus important que dans la plupart des cas, mais les décisions quant à la conservation ou non des données à des fins de modélisation peuvent être moins claires.
Références
- Osborne, J. et Overbay, A. (2008). Meilleures pratiques en matière de nettoyage des données: comment les valeurs aberrantes et les «fringeliers» peuvent augmenter les taux d'erreur et diminuer la qualité et la précision de vos résultats. Dans Osborne, J. Best practices in quantitative methods (pp. 205-213). Thousand Oaks, Californie: SAGE Publications, Inc. doi: 10.4135 / 9781412995627
- Wainer, H.Robust statistics: A survey and some prescription1 (4) 285-312 (1976).