Votre meilleure option pour utiliser la régression pour trouver des valeurs aberrantes est d'utiliser une régression robuste.
La régression ordinaire peut être affectée par les valeurs aberrantes de deux manières:
Tout d'abord, une valeur aberrante extrême dans la direction y à des valeurs x proches de X¯ peut affecter l'ajustement dans cette zone de la même manière qu'une valeur aberrante peut affecter une moyenne.
Deuxièmement, une observation «périphérique» dans l'espace x est une observation influente - elle peut tirer l'ajustement de la ligne vers elle. Si elle est suffisamment éloignée, la ligne passera par le point influent:
Dans le graphique de gauche, il y a un point qui est assez influent, et il tire la ligne assez loin de la grande masse des données. Dans le bon tracé, il a été déplacé encore plus loin - et maintenant la ligne passe par le point. Lorsque la valeur x est extrême, lorsque vous déplacez ce point de haut en bas, la ligne se déplace avec elle, passant par la moyenne des autres points et par le seul point influent.
Un point d'influence qui est parfaitement cohérent avec le reste des données n'est peut-être pas un si gros problème, mais un point éloigné d'une ligne passant par le reste des données fera en sorte que la ligne lui convienne, plutôt que les données.
Si vous regardez l'intrigue de droite, la ligne rouge - la ligne de régression des moindres carrés - ne montre le point extrême comme une valeur aberrante - son résiduel est 0. Au lieu de cela, les gros résidus de la ligne des moindres carrés sont en l'essentiel des données!
Cela signifie que vous pouvez complètement manquer une valeur aberrante .
Pire encore, avec une régression multiple, une valeur aberrante dans l'espace x peut ne pas sembler particulièrement inhabituelle pour une seule variable x. S'il y a une possibilité d'un tel point, il est potentiellement très risqué d'utiliser la régression des moindres carrés.
Régression robuste
Si vous correspondez à une ligne robuste - en particulier une ligne robuste aux valeurs aberrantes influentes - comme la ligne verte dans le deuxième graphique - alors la valeur aberrante a un très grand résidu.
Dans ce cas, vous avez un certain espoir d'identifier les valeurs aberrantes - ce seront des points qui ne sont pas - dans un certain sens - proches de la ligne.
Suppression des valeurs aberrantes
Vous pouvez certainement utiliser une régression robuste pour identifier et ainsi supprimer les valeurs aberrantes.
Mais une fois que vous avez un ajustement de régression robuste, qui n'est déjà pas très affecté par les valeurs aberrantes, vous n'avez pas nécessairement besoin de supprimer les valeurs aberrantes - vous avez déjà un modèle qui convient bien.