Je viens de trouver une raison impérieuse pour une réponse d'être le bonne.
La régression (et la plupart des modèles statistiques) concerne la manière dont les distributions conditionnelles d'une réponse dépendent de variables explicatives. Un élément important de la caractérisation de ces distributions est une mesure généralement appelée "asymétrie" (même si diverses formules ont été proposées): elle fait référence à la manière la plus élémentaire par laquelle la forme de la distribution s'écarte de la symétrie. Voici un exemple de données à deux variables (une réponse et une seule variable explicative x ) avec des réponses conditionnelles positivement asymétriques:yx
La courbe bleue correspond aux moindres carrés ordinaires. Il trace les valeurs ajustées.
Quand on calcule la différence entre une réponse et sa valeur ajustée y , nous déplaçons l'emplacement de la distribution conditionnelle, mais ne change pas autrement sa forme. En particulier, son asymétrie sera inchangée.yy^
Il s'agit d'un graphique de diagnostic standard montrant comment les distributions conditionnelles décalées varient avec les valeurs prédites. Géométriquement, c'est presque la même chose que "faire jusqu'à" le diagramme de dispersion précédent.
Si au contraire on calcule la différence de l'autre cela changera , puis inverser la forme de la distribution conditionnelle. Son asymétrie sera le négatif de la distribution conditionnelle initiale.y^−y,
Cela montre les mêmes quantités que la figure précédente, mais les résidus ont été calculés en soustrayant les données de leurs ajustements, ce qui revient bien entendu à nier les résidus précédents.
Bien que les deux figures précédentes soient mathématiquement équivalentes à tous égards - l'une est convertie en une autre simplement en inversant les points sur l'horizon bleu - l'une d'elles présente une relation visuelle beaucoup plus directe avec l'intrigue d'origine.
Par conséquent, si notre objectif est de relier les caractéristiques de distribution des résidus aux caractéristiques des données d'origine - et c'est presque toujours le cas -, il est préférable de simplement décaler les réponses plutôt que de les décaler et de les inverser.
La bonne réponse est claire: calculer vos résidus comme y−y^.