Tant que vos données proviennent d’une distribution connue avec des propriétés connues, vous pouvez définir rigoureusement une valeur aberrante comme un événement trop improbable pour avoir été généré par le processus observé (si vous considérez que "trop improbable" pour être non rigoureux, alors tous les tests d'hypothèses sont).
Cependant, cette approche est problématique à deux niveaux: elle suppose que les données proviennent d’une distribution connue avec des propriétés connues et qu’elle présente le risque que les valeurs aberrantes soient considérées comme des points de données introduits en contrebande dans votre ensemble de données par certaines féeries magiques.
En l'absence de données magiques, toutes les données proviennent de votre expérience et il n'est donc pas possible d'avoir des valeurs aberrantes, mais des résultats étranges. Celles-ci peuvent provenir d’erreurs d’enregistrement (par exemple, une maison de 400 000 chambres pour 4 dollars), de problèmes de mesure systématique (l’algorithme d’analyse d’images signale de vastes superficies si l’objet est trop près de la frontière), de problèmes expérimentaux (parfois, des cristaux se détachent de la solution, qui donnent un signal très élevé) ou des caractéristiques de votre système (une cellule peut parfois se diviser en trois au lieu de deux), mais elles peuvent aussi être le résultat d'un mécanisme que personne n'a jamais envisagé parce que c'est rare et que vous faites de la recherche, ce qui signifie qu'une partie de ce que vous faites n'est tout simplement pas connue.
Dans l’idéal, vous prenez le temps d’enquêter sur chaque valeur aberrante et de ne la supprimer de votre jeu de données que lorsque vous comprenez pourquoi elle ne convient pas à votre modèle. Cela prend beaucoup de temps et est subjectif dans la mesure où les raisons dépendent fortement de l'expérience, mais l'alternative est encore pire: si vous ne comprenez pas d'où viennent les observations aberrantes, vous avez le choix entre laisser les résultats aberrants «gâcher» vos résultats, ou en définissant une approche "mathématiquement rigoureuse" pour masquer votre manque de compréhension. En d’autres termes, en recherchant la "rigueur mathématique", vous choisissez entre ne pas avoir d’effet significatif et ne pas aller au paradis.
MODIFIER
Si tout ce que vous avez est une liste de nombres sans savoir d'où ils viennent, vous ne pouvez pas savoir si un point de données est une valeur aberrante, car vous pouvez toujours supposer une distribution où toutes les données sont inliers.