Faut-il supprimer les cas signalés comme aberrants par les logiciels statistiques lors de la régression multiple?


23

J'effectue plusieurs analyses de régression et je ne sais pas si les valeurs aberrantes de mes données doivent être supprimées. Les données qui m'inquiètent apparaissent sous forme de «cercles» sur les boîtes à moustaches SPSS, mais il n'y a pas d'astérisques (ce qui me fait penser qu'elles ne sont pas «si mauvaises»). Les cas qui m'inquiètent apparaissent sous le tableau "diagnostics casewise" dans la sortie - dois-je donc supprimer ces cas?


Merci beaucoup Charlie et Epigrad. Pourriez-vous s'il vous plaît suggérer quel graphique dans SPSS je regarde pour évaluer s'il y a des valeurs aberrantes dans les résidus? Le nuage de points semble assez désordonné! Je ne pense pas qu'il y ait de problème avec les données en tant que telles (car elles n'ont pas été saisies incorrectement). Je pense simplement que certains de mes participants avaient des scores beaucoup plus élevés sur certaines de mes échelles, c'est-à-dire parce qu'ils étaient beaucoup plus anxieux socialement le reste de l'échantillon.
Anon

3
Vous devez tracer la valeur prédite de y (celle donnée selon le modèle que vous estimez) sur l'axe x et les résidus sur l'axe y. Au lieu de la valeur prédite de y, vous pouvez placer l'un de vos prédicteurs / variables indépendantes sur l'axe x. Vous pouvez créer plusieurs tracés, chacun avec un prédicteur différent sur l'axe x pour voir quelle valeur x conduit au comportement aberrant. Encore une fois, je mettrais en garde contre le retrait des valeurs aberrantes; au lieu de cela, analysez pourquoi la valeur aberrante se produit.
Charlie

1
Faisant écho à la déclaration de Charlie, c'est le "pourquoi" qui compte, plutôt que le "si", et je voudrais moi aussi mettre en garde contre leur suppression. Je ne connais pas SPSS, mais quelles que soient les fonctionnalités que vous avez utilisées pour exécuter la régression, vous devriez également pouvoir vous donner un graphique des résidus, ou du moins la valeur de ceux-ci que vous pouvez utiliser pour faire le graphique suggéré par Charlie.
Fomite

@Anon, j'ai fusionné vos deux comptes. Veuillez vous inscrire afin de pouvoir mettre à jour et / ou commenter votre question.
chl

3
@ user603 Non, vous ne me lisez pas correctement. "Valeur aberrante" ne veut rien dire - en particulier lorsqu'elle est signalée par une procédure automatique dans un logiciel statistique. Il existe tout autant d'exemples des résultats importants d'une étude se trouvant dans les «valeurs aberrantes». Chaque fois que vous supprimez des données, cela devrait être pour une raison. "Ils ne sont pas pratiques" n'est pas une raison.
Fomite

Réponses:


25

Le repérage des valeurs aberrantes n'est pas un appel au jugement (ou en tout cas pas nécessairement un). Étant donné un modèle statistique, les valeurs aberrantes ont une définition précise et objective: ce sont des observations qui ne suivent pas le modèle de la majorité des données. Ces observations doivent être mises de côté au début de toute analyse simplement parce que leur distance par rapport à la majeure partie des données garantit qu'elles exerceront une influence disproportionnée sur tout modèle multivariable ajusté par maximum de vraisemblance (ou même sur toute autre fonction de perte convexe).

Il est important de souligner que des valeurs aberrantes multivariable s peuvent tout simplement pas être détectée de manière fiable en utilisant des résidus à partir d' un moindres carrés (ou tout autre modèle estimé par ML, ou toute autre fonction convexe de perte). En termes simples, les valeurs aberrantes multivariées ne peuvent être détectées de manière fiable qu'en utilisant leurs résidus à partir d'un modèle ajusté en utilisant une procédure d'estimation non susceptible d'être influencée par eux.

La croyance que les valeurs aberrantes se démarqueront nécessairement dans les résidus d'un ajustement classique se situe quelque part là-haut avec d'autres non-statistiques difficiles à démystifier tels que l'interprétation des valeurs de p comme mesure de la preuve ou l'inférence sur une population à partir d'un échantillon biaisé. Sauf peut-être que celui-ci pourrait bien être beaucoup plus ancien: Gauss lui-même a recommandé l'utilisation d'un estimateur robuste tel que la médiane et le fou (au lieu de la moyenne classique et des écarts-types) pour estimer les paramètres d'une distribution normale à partir d'observations bruyantes (même en allant jusqu'à dériver le facteur de cohérence du fou (1)).

Pour donner un exemple visuel simple basé sur des données réelles, considérons les fameuses données des étoiles CYG . Ici, la ligne rouge représente l'ajustement le moins carré, la ligne bleue l'ajustement obtenu en utilisant un ajustement de régression linéaire robuste. L'ajustement robuste est ici l'ajustement FastLTS (2), une alternative à l'ajustement LS qui peut être utilisé pour détecter les valeurs aberrantes (car il utilise une procédure d'estimation qui garantit que l'influence de toute observation sur le coefficient estimé est limitée). Le code R pour le reproduire est:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

étoilesCYG data

Fait intéressant, les 4 observations périphériques sur la gauche n'ont même pas les plus grands résidus par rapport à l'ajustement LS et le tracé QQ des résidus de l'ajustement LS (ou l'un des outils de diagnostic qui en découlent tels que la distance de Cook ou le dfbeta) ne parvient pas à montrer l'un d'eux comme problématique. Il s'agit en fait de la norme: il ne faut pas plus de deux valeurs aberrantes (quelle que soit la taille de l'échantillon) pour tirer les estimations LS de telle sorte que les valeurs aberrantes ne se démarquent pas dans un graphique résiduel. C'est ce qu'on appelle l' effet de masquageet c'est bien documenté. Peut-être la seule chose remarquable à propos de l'ensemble de données CYGstars est qu'il est bivarié (nous pouvons donc utiliser l'inspection visuelle pour confirmer le résultat de l'ajustement robuste) et qu'il existe en fait une bonne explication pour expliquer pourquoi ces quatre observations à gauche sont si anormales.

C'est, en fait, l'exception plus que la règle: sauf dans les petites études pilotes impliquant de petits échantillons et peu de variables et où la personne effectuant l'analyse statistique était également impliquée dans le processus de collecte de données, je n'ai jamais connu de cas où des croyances antérieures concernant l'identité des valeurs aberrantes était en fait vraie. C'est d'ailleurs très facile à vérifier. Que les valeurs aberrantes aient été identifiées à l'aide d'un algorithme de détection de valeurs aberrantes ou du sentiment intestinal du chercheur, les valeurs aberrantes sont par définition des observations qui ont un effet de levier anormal (ou `` pull '') sur les coefficients obtenus à partir d'un ajustement LS. En d'autres termes, les valeurs aberrantes sont des observations dont le retrait de l'échantillon devrait gravement affecter l'ajustement LS.

Bien que je n'ai jamais personnellement vécu cela non plus, il existe des cas bien documentés dans la littérature où des observations signalées comme des valeurs aberrantes par un algorithme de détection des valeurs aberrantes se sont révélées être des erreurs grossières ou générées par un processus différent. Dans tous les cas, il n'est ni scientifiquement justifié ni judicieux de ne supprimer les valeurs aberrantes que si elles peuvent être comprises ou expliquées d'une manière ou d'une autre. Si une petite cabale d'observations est si éloignée du corps principal des données qu'elle peut à elle seule tirer les résultats d'une procédure statistique, il est sage (et je pourrais ajouter naturel) de la traiter séparément, que ces points de données ne sont pas également suspects pour d'autres motifs.

(1): voir Stephen M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900.

(2): Computing LTS Regression for Large Data Sets (2006) PJ Rousseeuw, K. van Driessen.

(3): Méthodes multivariées robustes à répartition élevée (2008). Hubert M., Rousseeuw PJ et Van Aelst S. Source: Statist. Sci. Volume 23, 92-119.


6
C'est une bonne chose (+1). Cependant, je pense que vous utilisez à mauvais escient la terminologie conventionnelle et que vous avez coopté «valeur aberrante» pour faire référence à «observation influente». Les concepts sont tous deux précieux, et vous traitez bien ces derniers ici, mais ils ne sont pas aussi interchangeables que vous semblez l'indiquer. Par exemple, une observation influente qui est cohérente avec la majorité des données correspondrait à votre caractérisation des «observations qui ont un effet de levier anormal (ou« pull ») sur les coefficients obtenus à partir d'un ajustement LS» mais ne seraient pas prises en compte par la plupart des auteurs être une «valeur aberrante» en soi.
whuber

2
@whuber: Bon point. En effet, je considère, tout comme les manuels récents sur les statistiques robustes (par exemple, Statistiques robustes: théorie et méthodes. Wiley) de telles observations (appelées «bons points de levier») comme nuisibles. La justification est qu'ils dégonflent l'erreur type des coefficients estimés, ce qui fait que l'utilisateur accorde une confiance injustifiée à la force de la relation observée. Le fait de considérer de bons points de levier comme des valeurs aberrantes rend également l'approche formelle plus cohérente: après tout, un bon point de levier a une influence démesurée sur le soi qui est une composante de l'ajustement LS / ML.
user603

3
+1 Très bel exemple. Des données réelles qui montrent deux ajustements presque orthogonaux et dans lesquels les quatre très influents en haut à gauche n'auront pas les plus grands résidus après un ajustement OLS.
Wayne

19

En général, je me méfie de supprimer les «valeurs aberrantes». L'analyse de régression peut être correctement appliquée en présence d'erreurs non distribuées normalement, d'erreurs qui présentent une hétéroscédasticité ou de valeurs des prédicteurs / variables indépendantes qui sont "loin" du reste. Le vrai problème avec les valeurs aberrantes est qu'elles ne suivent pas le modèle linéaire que tous les autres points de données suivent. Comment savez-vous si c'est le cas? Non.

Si quoi que ce soit, vous ne voulez pas rechercher des valeurs de vos variables qui sont aberrantes; au lieu de cela, vous souhaitez rechercher les valeurs de vos résidus qui sont aberrantes. Regardez ces points de données. Leurs variables sont-elles enregistrées correctement? Y a-t-il une raison pour laquelle ils ne suivraient pas le même modèle que le reste de vos données?

Bien sûr, la raison pour laquelle ces observations peuvent apparaître comme des valeurs aberrantes (selon le diagnostic résiduel) pourrait être parce que votre modèle est incorrect. J'ai un professeur qui aimait à dire que si nous jetions les valeurs aberrantes, nous croirions toujours que les planètes tournent autour du soleil en cercles parfaits. Kepler aurait pu jeter Mars et l'histoire de l'orbite circulaire aurait été plutôt bonne. Mars a fourni l'idée clé que ce modèle était incorrect et il aurait manqué ce résultat s'il avait ignoré cette planète.

Vous avez mentionné que la suppression des valeurs aberrantes ne change pas beaucoup vos résultats. Soit parce que vous ne disposez que d'un très petit nombre d'observations que vous avez supprimées par rapport à votre échantillon, soit qu'elles sont raisonnablement cohérentes avec votre modèle. Cela pourrait suggérer que, même si les variables elles-mêmes peuvent sembler différentes des autres, leurs résidus ne sont pas exceptionnels. Je les laisserais à l'intérieur et n'essaierais pas de justifier ma décision de retirer certains points à mes critiques.


6
+1 Ne jetez pas les données car c'est une valeur aberrante. Découvrez pourquoi certaines données sont éloignées.
Fomite

2
c'est un conseil terrible. Il est très fréquent que les valeurs aberrantes soient si éloignées du reste des données qu'elles tirent la ligne de régression vers elles de telle manière qu'elles ne se démarquent pas sur un graphique résiduel (ou pire: produisent des résidus importants pour le véritable points de données). En fait, il peut être démontré que dès que vous avez plus d'une seule valeur aberrante, elle ne peut pas être détectée de manière fiable en utilisant un tracé résiduel d'une régression classique. C'est ce qu'on appelle l' effet de masquage et j'ai bien documenté notamment dans de nombreux exemples de données réelles.
user603

Au fait, c'est aussi pourquoi j'éviterais d'utiliser l'exemple de Mars: il illustre une procédure qui ne fonctionne que si vous avez affaire à une seule valeur aberrante. Dans la plupart des applications, il n'y a pas de telle garantie. Cela donne un mauvais sentiment de confiance dans une méthodologie généralement imparfaite (qui en tant que statisticien est vraiment ce que nous devons nous efforcer de prévenir).
user603

15

+1 à @Charlie et @PeterFlom; vous obtenez de bonnes informations là-bas. Je peux peut-être apporter une petite contribution ici en remettant en question la prémisse de la question. Un boxplot désignera généralement (le logiciel peut varier, et je ne sais pas exactement ce que fait SPSS) les points plus de 1,5 fois la plage inter-quartile au-dessus (en dessous) du troisième (premier) quartile comme étant des valeurs aberrantes. Cependant, nous pouvons nous demander à quelle fréquence devons-nous nous attendre à trouver au moins un de ces points lorsque nous savons avec certitude que tous les points proviennent de la même distribution? Une simulation simple peut nous aider à répondre à cette question:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

Cela démontre que de tels points peuvent survenir fréquemment (> 50% du temps) avec des échantillons de taille 100, même lorsque rien ne va mal. Comme l'indique cette dernière phrase, la probabilité de trouver une fausse `` valeur aberrante '' via la stratégie boxplot dépendra de la taille de l'échantillon:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

Il existe d'autres stratégies pour identifier automatiquement les valeurs aberrantes, mais une telle méthode identifiera parfois à tort les points valides comme des «valeurs aberrantes», et parfois mal identifier les vraies valeurs aberrantes comme des «points valides». (Vous pouvez les considérer comme des erreurs de type I et de type II .) Ma réflexion sur ce problème (pour ce qu'il vaut) est de se concentrer sur les effets de l'inclusion / exclusion des points en question. Si votre objectif est la prédiction, vous pouvez utiliser la validation croisée pour déterminer si / dans quelle mesure, y compris les points en question, augmente l' erreur quadratique moyenne de prédiction . Si votre objectif est l'explication, vous pouvez regarder dfBeta(c.-à-d. regardez dans quelle mesure les estimations bêta de votre modèle changent selon que les points en question sont inclus ou non). Une autre perspective (sans doute la meilleure) consiste à éviter d'avoir à choisir si les points aberrants doivent être supprimés et à utiliser à la place des analyses robustes .


Les procédures que vous recommandez ne fonctionnent de manière fiable que s'il existe au plus une seule valeur aberrante (quelle que soit la taille de votre ensemble de données), ce qui est une hypothèse irréaliste. Tukey a calibré la règle des moustaches pour exclure environ 1% des observations à chaque extrémité si les données sont tirées d'une distribution gaussienne. Vos simulations le confirment. L'opinion de Tukey était que les pertes causées par le fait de ne pas tenir compte d'une si petite partie des données dans les cas où les observations se comportaient bien sont pour toutes les préoccupations pratiques sans conséquence. Surtout en ce qui concerne les avantages dans les cas où les données ne le sont pas.
user603

2
Merci pour votre commentaire, @ user603; c'est une position qui fait réfléchir. À quelles procédures vous recommandez-vous de vous opposer: en utilisant, par exemple, dfbeta pour détecter d' éventuelles valeurs aberrantes, ou en utilisant des analyses robustes (prototypiquement le bisquare de Tukey comme fonction de perte alternative) comme protection contre leur influence au lieu de choisir les points de données à jeter?
gung - Réintégrer Monica

merci d'avoir souligné le manque de clarté de mon commentaire (j'ai été contraint par la limite de longueur). Bien sûr, je veux dire spécifiquement les premiers: dfbeta et validation croisée (cette dernière n'est problématique que si les observations utilisées pour effectuer la validation croisée sont tirées au hasard de l'échantillon d'origine. Un exemple de cas où la validation croisée pourrait être utilisée serait être dans un cadre dit de contrôle de la qualité où les observations utilisées pour les tests sont tirées d'un échantillon temporellement disjoint).
user603

Merci d'avoir clarifié, @ user603. Je vais devoir jouer avec ces idées pour mieux les comprendre. Mon intuition est qu'il serait assez difficile de ne pas remarquer de valeurs aberrantes qui faussent vos résultats; il semble que vous auriez besoin de valeurs aberrantes déformant vos résultats des deux côtés de manière égale, auquel cas vos bêtas finiraient approximativement sans biais et vos résultats seraient tout simplement moins «significatifs».
gung - Rétablir Monica

1
Mon intuition est qu'il serait assez difficile de ne pas remarquer de valeurs aberrantes qui faussent vos résultats, mais malheureusement, le fait est que ce n'est pas le cas. Regardez également l'exemple que je donne dans ma réponse.
user603

12

Vous devriez d'abord regarder les graphiques des résidus: suivent-ils (grossièrement) une distribution normale? Montrent-ils des signes d'hétéroskédasticité? Regardez également d'autres graphiques (je n'utilise pas SPSS, donc je ne peux pas dire exactement comment faire cela dans ce programme, ni quels boxplots vous regardez; cependant, il est difficile d'imaginer que les astérisques signifient "pas si mal" qu'ils signifient probablement que ce sont des points très inhabituels selon certains critères).

Ensuite, si vous avez des valeurs aberrantes, regardez-les et essayez de comprendre pourquoi.

Ensuite, vous pouvez essayer la régression avec et sans les valeurs aberrantes. Si les résultats sont similaires, la vie est belle. Rapportez les résultats complets avec une note de bas de page. S'ils ne sont pas similaires, vous devez expliquer les deux régressions.


1
Merci beaucoup Peter. J'ai inspecté les parcelles QQ et les données ne semblent pas être tout à fait inhabituelles. Lorsque je supprime les valeurs aberrantes, elles ne semblent pas faire beaucoup de différence dans les résultats. Alors, devrais-je donc les laisser dedans? Je serais toujours intéressé d'entendre les réflexions des autres sur la table de diagnostic casewise dans SPSS. Merci beaucoup.
Anon

1
Oui, je les laisserais ensuite avec une note de bas de page quelque chose comme "l'analyse avec plusieurs valeurs aberrantes supprimées a montré des résultats très similaires"
Peter Flom - Réinstallez Monica

2
Même en supposant que l'on puisse trouver des valeurs aberrantes fiables en utilisant une telle procédure (et la plupart du temps, on ne peut pas ) qui laisse encore étrangement sans réponse le problème de quoi faire quand vous ne pouvez pas "comprendre" / expliquer les valeurs aberrantes. J'appuie le conseil de rester à l'écart de SPSS. -
user603
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.