Tracé des lignes droites diagonales dans les valeurs résiduelles vs valeurs ajustées pour la régression multiple


11

J'observe d'étranges schémas de résidus pour mes données: entrez la description de l'image ici

[EDIT] Voici les graphiques de régression partielle pour les deux variables:

http://i.imgur.com/Lh36l.png

http://i.imgur.com/akMjB.png

[EDIT2] Ajout du tracé PP http://i.imgur.com/pCKFA.png

La distribution semble bien se passer (voir ci-dessous) mais je n'ai aucune idée d'où cette ligne droite pourrait provenir. Des idées? entrez la description de l'image ici

[MISE À JOUR 31.07]

Il s'avère que vous aviez absolument raison, j'ai eu des cas où le nombre de retweets était bien de 0 et ces ~ 15 cas ont donné lieu à ces étranges schémas résiduels.

Les résidus semblent beaucoup mieux maintenant: http://i.imgur.com/XGas9.png

J'ai également inclus les régressions partielles avec une ligne de loess. http://i.imgur.com/Jcr2M.png http://i.imgur.com/eb376.png


Pourriez-vous également ajouter la ligne ajustée tracée sur les données d'origine?
MånsT

En outre, les sous-titres des figures indiquent "communauté: anime" et "communauté: astrologie", ce qui semble impliquer que ces tracés proviennent de différents ensembles de données ...
MånsT

Je me souviens avoir vu ce type de modèles dans mes résidus lorsque mes variables dépendantes sont catégoriques ou «pas assez continues».
King

J'ai ajouté le tracé PP approprié et les tracés partiels des deux IV
plotti

Réponses:


23

Il semble que sur certaines de ses sous-plages, votre variable dépendante soit constante ou dépend exactement de façon linéaire du ou des prédicteurs. Ayons deux variables corrélées, X et Y (Y dépend). Le nuage de points est à gauche.

entrez la description de l'image ici

Revenons, par exemple, sur la première possibilité ("constante"). Recode toutes les valeurs Y de la plus basse à -0,5 en une seule valeur -1 (voir l'image au centre). Régresser Y sur X et tracer la dispersion des résidus, c'est-à-dire faire pivoter l'image centrale de sorte que la ligne de prédiction soit maintenant horizontale. Ressemble-t-il à votre photo?


6
Ce sont les statistiques médico-légales à leur meilleur! Un gros +1.
Michael R. Chernick

Il s'avère que vous aviez absolument raison, j'ai eu des cas où le nombre de retweets était en effet de 0 et ces ~ 15 cas ont donné lieu à ces étranges schémas résiduels. i.imgur.com/XGas9.png
plotti

4

Il n'est pas surprenant que vous ne voyiez pas le motif dans l'histogramme, le motif impair s'étend sur une bonne partie de la plage de l'histogramme et ne représente que quelques points de données dans chaque casier. Vous avez vraiment besoin de savoir de quels points de données il s'agit et de les consulter. Vous pouvez utiliser les valeurs prédites et les résidus pour les trouver assez facilement. Une fois que vous avez trouvé les valeurs, commencez à chercher pourquoi celles-ci peuvent être spéciales.

Cela dit, ce modèle particulier n'est spécial que parce qu'il est long. Si vous regardez attentivement votre tracé de résidus et votre tracé de quantile, vous verrez qu'il se répète mais qu'il s'agit de séquences plus petites. C'est peut-être vraiment une anomalie. Ou peut-être que c'est vraiment un modèle qui se répète. Mais, vous devrez trouver où il se trouve dans les données brutes et l'examiner afin d'avoir tout espoir de le comprendre.

Pour vous aider un peu, le tracé quantile-quantile suggère que vous avez un tas de résidus identiques. Il est possible que ce soit une erreur de codage. Je peux générer quelque chose de similaire en R avec ...

x <- c(rnorm(50), rep(-0.2, 10), rep(0, 4))
qqnorm(x);qqline(x)

Notez les deux points plats sur la ligne. Cependant, cela semble plus complexe que cela car il y a une implication que les résidus identiques traversent une gamme de prédicteurs.


3

Il semble que vous l'utilisiez R. Si c'est le cas, notez que vous pouvez identifier des points sur un nuage de points en utilisant ? Identifier . Je pense qu'il y a plusieurs choses qui se passent ici. Premièrement, vous avez un point très influent sur l'intrigue de LN_RT_vol_in ~ LN_AT_vol_in(celui mis en évidence) à environ (0,2, 1,5). Il s'agit très probablement du résidu normalisé d'environ -3,7. L'effet de ce point sera d'aplatir la ligne de régression, en l'inclinant plus horizontalement que la ligne fortement ascendante que vous auriez autrement obtenue. Un effet de cela est que tous vos résidus seront tournés dans le sens antihoraire par rapport à l'endroit où ils auraient autrement été situés dans l' residual ~ predictedintrigue (au moins en pensant en termes de cette covariable et en ignorant l'autre).

Néanmoins, la ligne droite apparente de résidus que vous voyez serait toujours là, car ils existent quelque part dans le nuage tridimensionnel de vos données d'origine. Ils peuvent être difficiles à trouver dans l'une ou l'autre des parcelles marginales. Vous pouvez utiliser la fonction identifier () pour vous aider, et vous pouvez également utiliser le package rgl pour créer un nuage de points 3D dynamique que vous pouvez faire pivoter librement avec votre souris. Cependant, notez que les résidus linéaires sont tous inférieurs à 0 dans leur valeur prédite et ont des résidus inférieurs à 0 (c'est-à-dire qu'ils sont inférieurs à la droite de régression ajustée); qui vous donne un gros indice pour savoir où chercher. En regardant à nouveau votre intrigue deLN_RT_vol_in ~ LN_AT_vol_in, Je pense que je peux les voir. Il y a un groupe de points assez droit s'étendant en diagonale vers le bas et vers la gauche d'environ (-.01, -1.00) au bord inférieur du nuage de points dans cette région. Je soupçonne que ce sont les points en question.

En d'autres termes, les résidus se présentent de cette façon parce qu'ils se trouvent déjà de cette façon quelque part dans l'espace de données. Essentiellement, c'est ce que @ttnphns suggère, mais je ne pense pas que ce soit une constante dans aucune des dimensions d'origine - c'est une constante dans une dimension à un angle par rapport à vos axes d'origine. Je suis en outre d'accord avec @MichaelChernick que cette rectitude apparente dans le tracé résiduel est probablement inoffensive, mais que vos données ne sont pas vraiment très normales. Ils sont quelque peu normaux, cependant, et vous semblez avoir un nombre décent de données, donc le CLT peut vous couvrir, mais vous voudrez peut-être bootstrap juste au cas où. Enfin, je crains que cette «valeur aberrante» ne détermine vos résultats; une approche robuste est probablement méritée.


1
Votre déclaration it's a constant in a dimension at an angle to your original axespeut-elle être comparable à la mienne is exactly linearly dependent on the predictor(s), ou vous voulez dire quelque chose de différent?
ttnphns

@ttnphns, j'ai raté cette partie de votre réponse quand je l'ai parcourue; J'ai vu la "constante" et vu les points de votre intrigue, et c'est ce que j'ai emporté. Oui, "c'est une constante dans une dimension ..." est logiquement synonyme de "est exactement dépendant linéairement ...". Je me rends compte maintenant que mon point principal est en grande partie le même que le vôtre (+1), bien que je pense que certains de mes autres points (concernant les données qui sont probablement le coupable, les stratégies R, les approches robustes, etc.) contribuent toujours à la discussion.
gung - Rétablir Monica

Bien sûr, votre réponse a beaucoup contribué pour moi.
ttnphns

1

Je ne dirais pas nécessairement que l'histogramme est correct. La superposition visuelle de la normale la mieux adaptée à un histogramme peut être trompeuse et votre histogramme peut être sensible au choix de la largeur du bac. Le graphique de probabilité normale semble indiquer un écart important par rapport à la normale et même en regardant l'histogramme, il semble à mes yeux qu'il y a une légère asymétrie (fréquence plus élevée dans le bac [0, + 0,5] par rapport au bac [-0,5,0]) et kurtosis sévère (trop grande d'une fréquence dans les intervalles [-4, -3,5] et [2,5, 3]).

En ce qui concerne le modèle que vous voyez, il peut provenir d'une exploration sélective à travers le nuage de points. Il semble que si vous en poursuivez, vous pouvez trouver deux ou trois autres lignes presque parallèles à celle que vous avez choisie. Je pense que vous en lisez trop. Mais la non-normalité est une réelle préoccupation. Vous avez une valeur aberrante très énorme avec un résidu de près de -4. Ces résidus proviennent-ils d'un ajustement des moindres carrés? Je conviens qu'il pourrait être instructif de regarder la ligne ajustée sur un nuage de points des données.


J'ai ajouté les tracés partiels des deux IV pour faire plus de lumière à ce sujet
plotti

1
J'aimerais voir la chose la plus fondamentale, la ligne ajustée passant par un nuage de points des données.
Michael R. Chernick
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.