Détection des valeurs aberrantes à l'aide de la régression


11

La régression peut-elle être utilisée pour une détection externe. Je comprends qu'il existe des moyens d'améliorer un modèle de régression en supprimant les valeurs aberrantes. Mais l'objectif principal ici n'est pas d'adapter un modèle de régression, mais de découvrir des mensonges en utilisant la régression


Lorsque l'ajustement s'améliore après l'ajustement d'un modèle sans outlayer, il existe des preuves qu'il s'agit d'une valeur extrême. Cela peut être théorique si vous avez beaucoup de données, car l'ajustement sera relativement moins amélioré.
Roman Luštrik

@ RomanLuštrik: il s'agit d'une définition très hésitante des valeurs aberrantes. Par exemple, il n'est pas cohérent avec le point de vue des valeurs aberrantes utilisé dans la réponse de Glen_b (ou d'ailleurs avec la définition des valeurs aberrantes utilisée dans les manuels sur le sujet tels que "Statistiques robustes: théorie et méthodes"). Voulez-vous citer une source pour appuyer votre définition?
user603

Je ne peux citer aucune référence. Vous avez bien sûr raison, qu'est-ce qu'une amélioration de l'ajustement? L'amélioration peut être une question hautement subjective et doit être utilisée comme guide, et non comme une valeur seuil robotique et jugée au cas par cas.
Roman Luštrik

Les moindres carrés itérativement repondérés sont une méthode de régression robuste couramment utilisée pour trouver des valeurs aberrantes dans les données.
whuber

Réponses:


13

Votre meilleure option pour utiliser la régression pour trouver des valeurs aberrantes est d'utiliser une régression robuste.

La régression ordinaire peut être affectée par les valeurs aberrantes de deux manières:

Tout d'abord, une valeur aberrante extrême dans la direction y à des valeurs x proches de X¯ peut affecter l'ajustement dans cette zone de la même manière qu'une valeur aberrante peut affecter une moyenne.

Deuxièmement, une observation «périphérique» dans l'espace x est une observation influente - elle peut tirer l'ajustement de la ligne vers elle. Si elle est suffisamment éloignée, la ligne passera par le point influent:

entrez la description de l'image ici

Dans le graphique de gauche, il y a un point qui est assez influent, et il tire la ligne assez loin de la grande masse des données. Dans le bon tracé, il a été déplacé encore plus loin - et maintenant la ligne passe par le point. Lorsque la valeur x est extrême, lorsque vous déplacez ce point de haut en bas, la ligne se déplace avec elle, passant par la moyenne des autres points et par le seul point influent.

Un point d'influence qui est parfaitement cohérent avec le reste des données n'est peut-être pas un si gros problème, mais un point éloigné d'une ligne passant par le reste des données fera en sorte que la ligne lui convienne, plutôt que les données.

Si vous regardez l'intrigue de droite, la ligne rouge - la ligne de régression des moindres carrés - ne montre le point extrême comme une valeur aberrante - son résiduel est 0. Au lieu de cela, les gros résidus de la ligne des moindres carrés sont en l'essentiel des données!

Cela signifie que vous pouvez complètement manquer une valeur aberrante .

Pire encore, avec une régression multiple, une valeur aberrante dans l'espace x peut ne pas sembler particulièrement inhabituelle pour une seule variable x. S'il y a une possibilité d'un tel point, il est potentiellement très risqué d'utiliser la régression des moindres carrés.

Régression robuste

Si vous correspondez à une ligne robuste - en particulier une ligne robuste aux valeurs aberrantes influentes - comme la ligne verte dans le deuxième graphique - alors la valeur aberrante a un très grand résidu.

Dans ce cas, vous avez un certain espoir d'identifier les valeurs aberrantes - ce seront des points qui ne sont pas - dans un certain sens - proches de la ligne.


Suppression des valeurs aberrantes

Vous pouvez certainement utiliser une régression robuste pour identifier et ainsi supprimer les valeurs aberrantes.

Mais une fois que vous avez un ajustement de régression robuste, qui n'est déjà pas très affecté par les valeurs aberrantes, vous n'avez pas nécessairement besoin de supprimer les valeurs aberrantes - vous avez déjà un modèle qui convient bien.


1
"vous n'avez pas nécessairement besoin de supprimer les valeurs aberrantes" parfois, trouver les valeurs aberrantes est le but de l'étude (par exemple, identification de la fraude)
user603

1

3
(+1) Bonne réponse, mais il est dommage que vous ne mentionniez aucune méthode de régression robuste. Par exemple, comment la ligne verte a-t-elle été tracée sur la sous-intrigue de droite (et pourquoi préférez-vous cet algorithme aux autres)? Peut-être que ce lien pourrait être utile ici: Régression linéaire rapide robuste aux valeurs aberrantes - sans doute le meilleur fil de discussion sur CV traitant de la régression robuste.
amoeba

-2

La régression peut-elle être utilisée pour la détection des valeurs aberrantes.

Oui. Cette réponse et la réponse de Glen_b répondent à cela.

L'objectif principal ici n'est pas d'adapter un modèle de régression, mais de découvrir des mensonges en utilisant la régression

S'appuyant sur le commentaire de Roman Lustrik, voici une heuristique pour trouver des valeurs aberrantes en utilisant une régression (linéaire multiple).

n

  1. n rtotal

  2. ri

  3. rirtotjerje<<rtotunelje

En mettant de côté ces points aberrants candidats, nous pouvons répéter tout l'exercice avec l'échantillon réduit. Dans l'algorithme, nous choisissons des exemples dans les données qui influencent mal l'ajustement de régression (ce qui est une façon d'étiqueter un exemple comme une valeur aberrante).


1
Avez-vous essayé cette stratégie sur l'ensemble de données présenté ici ? Plus fondamentalement, votre stratégie revient à affirmer que les valeurs aberrantes peuvent être trouvées de manière fiable à partir des résultats d'une chaîne d'ajustements minimisant une fonction de perte convexe, ce qui est une erreur connue lorsqu'il y a plus d'une seule valeur aberrante (ce lien montre cela pour le problème connexe de trouver des valeurs aberrantes multivariées mais les résultats s'appliquent également à la régression).
user603

Je suis heureux de retirer ma réponse. Mais d'abord, je ne comprends pas les deux références que vous donnez et de plus, je ne sais pas pourquoi elles rendent ma réponse incorrecte. Où est une «stratégie» est la première référence? Pouvez-vous indiquer une réponse précise là-bas? Quelles pages et lignes de la deuxième référence sont pertinentes ici et discutent du «sophisme»?
Theja

1
Désolé, je n'ai pu y revenir que maintenant. La section des commentaires est un peu courte pour fournir un exemple et je n'utiliserai pas la section «Réponse» car ce n'est pas la question du PO. Pourtant, avez-vous eu le temps d'essayer votre méthodologie sur les données auxquelles j'ai lié?
user603
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.