Les résidus sont-ils «prévus moins réels» ou «réels moins prévus»?

46

J'ai vu des "résidus" définis différemment comme étant "des valeurs prédites moins les valeurs réelles" ou des "valeurs prédites moins les valeurs réelles". À titre d'illustration, pour montrer que les deux formules sont largement utilisées, comparez les recherches sur le Web suivantes:

En pratique, cela ne fait presque jamais de différence, puisque le signe des résidus individuels n'a généralement pas d'importance (par exemple, s'ils sont carrés ou si les valeurs absolues sont prises). Cependant, ma question est la suivante: l’ une de ces deux versions (prédiction d’abord / réelle en premier) est-elle considérée comme "standard"? J'aime être cohérent dans mon utilisation, donc s'il existe une norme conventionnelle bien établie, je préférerais la respecter. Cependant, s’il n’ya pas de norme, je suis heureux de l’accepter comme réponse, s’il peut être démontré de manière convaincante qu’il n’ya pas de convention standard.

residuals terminology error

— Tripartio
source

8

Puisque le résidu est lié à l'erreur du modèle, lorsque nous écrivons

y = a + b x + ϵ

$y = a + bx + \epsilon$ , nous pensons que

y

$y$ est une "partie fixe" plus une "partie aléatoire", donc le résidu est le

y

$y$ moins le

a + b x

$a + bx$ .

— AdamO

Prédite moins réelle ou réelle moins attendue serait une erreur de prédiction (ou son négatif), alors que ajustée moins réelle ou réelle moins ajustée serait résiduelle (ou négative). La réponse de Stephen Kolassa mentionne les erreurs de prévision pour une raison.

— Richard Hardy

Je trouve (prédit-réel) plus pratique de travailler avec. Il est souvent nécessaire de calculer des dérivées du résidu en fonction de certains paramètres. Si vous utilisez (prévisions réelles), des signes moins apparaissent et vous indiquent que vous devez suivre le reste de vos calculs, ce qui nécessite l'utilisation de plusieurs parenthèses, en veillant à annuler les doubles négatifs lorsqu'ils se produisent, etc. D'après mon expérience, cela conduit à plus d'erreurs

— Nick Alger

43

Les résidus sont toujours réels moins les prévisions. Les modèles sont: Par conséquent, les résidus , qui sont des estimations des erreurs :

y = F (X; β) + ε

$y=f(x;\beta)+\varepsilon$

\hat{ε}

$\hat\varepsilon$

ε

$\varepsilon$

\hat{ε} = y - \hat{y} \hat{y} = F (X; \hat{β})

$\hat\varepsilon=y-\hat y\\\hat y=f(x;\hat\beta)$

Je suis d'accord avec @whuber pour dire que le signe n'a pas vraiment d'importance mathématique. C'est juste bien d'avoir une convention cependant. Et la convention actuelle est telle que dans ma réponse.

Depuis que OP a contesté mon autorité sur ce sujet, j'ajoute quelques références:

" (2008) Residual. In: L'Encyclopédie concise des statistiques. Springer, New York, NY , qui donne la même définition.
"Méthodes statistiques pour les chercheurs" de Fisher, 1925, a la même définition, voir la section 26 de cette version de 1934 . Malgré un titre sans prétention, il s'agit d'un travail important dans le contexte historique

— Aksakal
source

3

J'ai modifié ma question pour ajouter quelques exemples de recherches Web qui montrent clairement que les résidus ne sont PAS TOUJOURS réels moins les prévisions. le suppléant est également assez fréquent - d’où ma confusion. Ma question est de savoir s’il existe une documentation de la convention correcte qui fait autorité, ce que, malheureusement, votre réponse ne fournit pas.

— Tripartio

5

Dans ma lecture, observé

prévu est la convention majoritaire moderne en statistique. Il est à noter toutefois que Gauss a utilisé la convention opposée: les résidus naturellement carrés sont identiques dans les deux cas, dans le contexte des moindres carrés, des sommes de carrés ou des carrés moyens. Bien qu’il existe des précédents du 19e siècle et des précédents en matière d’examen des résidus individuels, il n’a commencé à se généraliser et à s’occuper de ces résidus que ce soit au début des années 1960. C’est-à-dire que ce n’est que lorsque le signe des résidus est en vue que quiconque doit se soucier de ce qu’il est.

-

$-$

— Nick Cox

18

+1 Le concept de résidu découle de "un reste; ce qui reste" : autrement dit, ce qui reste dans les données après la prise en compte de la prédiction. Cela suggère que ceux qui ont nommé ces quantités "résiduelles" avaient à l’esprit la définition de "valeur de données moins la valeur ajustée".

— whuber

3

@ NickCox, pourriez-vous formaliser vos commentaires sous forme de réponse, avec des citations? Ma question ne porte pas tant sur les statistiques que sur les conventions scientifiques. Le type d'informations historiques et d'utilisation que vous mentionnez dans votre commentaire est donc le type de réponse que je recherche.

— Tripartio

6

Le mot résiduel long, long précède Salsburg. Je dois dire que son livre, bien que parfois divertissant, est loin de faire autorité. Si vous êtes intéressé, vous pouvez consulter mon avis sur Biometrics. Jstor.org/stable/3068274

— Nick Cox

22

Je viens de trouver une raison impérieuse pour une réponse d'être le bonne.

La régression (et la plupart des modèles statistiques) concerne la manière dont les distributions conditionnelles d'une réponse dépendent de variables explicatives. Un élément important de la caractérisation de ces distributions est une mesure généralement appelée "asymétrie" (même si diverses formules ont été proposées): elle fait référence à la manière la plus élémentaire par laquelle la forme de la distribution s'écarte de la symétrie. Voici un exemple de données à deux variables (une réponse et une seule variable explicative ) avec des réponses conditionnelles positivement asymétriques: $y$ $x$

La courbe bleue correspond aux moindres carrés ordinaires. Il trace les valeurs ajustées.

Quand on calcule la différence entre une réponse et sa valeur ajustée , nous déplaçons l'emplacement de la distribution conditionnelle, mais ne change pas autrement sa forme. En particulier, son asymétrie sera inchangée. $y$ $\hat y$

Il s'agit d'un graphique de diagnostic standard montrant comment les distributions conditionnelles décalées varient avec les valeurs prédites. Géométriquement, c'est presque la même chose que "faire jusqu'à" le diagramme de dispersion précédent.

Si au contraire on calcule la différence de l'autre cela changera , puis inverser la forme de la distribution conditionnelle. Son asymétrie sera le négatif de la distribution conditionnelle initiale. $\hat y - y,$

Cela montre les mêmes quantités que la figure précédente, mais les résidus ont été calculés en soustrayant les données de leurs ajustements, ce qui revient bien entendu à nier les résidus précédents.

Bien que les deux figures précédentes soient mathématiquement équivalentes à tous égards - l'une est convertie en une autre simplement en inversant les points sur l'horizon bleu - l'une d'elles présente une relation visuelle beaucoup plus directe avec l'intrigue d'origine.

Par conséquent, si notre objectif est de relier les caractéristiques de distribution des résidus aux caractéristiques des données d'origine - et c'est presque toujours le cas -, il est préférable de simplement décaler les réponses plutôt que de les décaler et de les inverser.

La bonne réponse est claire: calculer vos résidus comme $y - \hat y.$

— whuber
source

1

Je ne pense pas que je suive la particularité de l'asymétrie ici - votre argument sur les résidus correspondant à l'intrigue d'origine ne tient-il pas tout de suite?

— MichaelChirico

2

@ Michael Vous avez tout à fait raison. L'asymétrie est utile, toutefois, pour illustrer ce point car elle distingue clairement la forme d'une distribution de la forme de son négatif.

— whuber

10

Green & Tashman (2008, Foresight ) présentent un petit sondage sur la question analogue des erreurs de prévision. Je vais résumer les arguments pour l'une ou l'autre convention rapportée par eux:

Arguments pour "prédit-réel"

La convention statistique est . $y=\hat{y}+\epsilon$
Au moins un répondant de la sismologie a écrit que c'était également la convention pour modéliser le temps de parcours des ondes sismiques. "Lorsque l'onde sismique réelle arrive avant l'heure prédit par le modèle, nous avons un temps de trajet négatif (erreur)." ( sic )
Cette convention est logique si nous interprétons comme un budget, un plan ou cible. Ici, une erreur positive signifie que le budget / plan / objectif a été dépassé. $\hat{y}$
Cette convention rend les formules de lissage exponentiel un peu plus intuitives. Nous pouvons utiliser un signe . Avec l’autre convention, il faudrait utiliser un signe . $+$ $-$

Arguments pour "prédits-réels"

Si $y=\hat{y}-\epsilon$ , alors une erreur positive indique que la prévision était trop élevé. C'est plus intuitif que l'inverse.

De même, si un biais positif est défini comme positif erreur attendue, cela signifierait que les prévisions sont en moyenne trop élevées avec cette convention.

Et c'est à peu près le seul argument avancé pour cette convention. Là encore, étant donné les malentendus que l’autre convention peut entraîner (erreurs positives = prévisions trop basses), c’est une erreur grave.

En fin de compte, je dirais que cela dépend de la personne à laquelle vous devez communiquer vos résidus. Et comme il y a certainement deux côtés à cette discussion, il est logique de noter explicitement la convention que vous suivez.

— S. Kolassa - Rétablir Monica
source

7

Points intéressants, mais chaque fois que quelqu'un dit "intuitif", je traduis cela par "familier pour moi" et la traduction est souvent plus convaincante et jamais moins. Essayez ceci: la convention de sommation d'Einstein est intuitive. Seulement quand tu y seras habitué. Mesurer les angles à partir de l' axe

dans le sens anti-horaire est intuitif. Pas aux géographes ou à quiconque a appris à utiliser un compas avant d'étudier la géométrie des coordonnées.

x

$x$

— Nick Cox

3

@ NickCox: abstraitement, vous avez raison. Cependant, prenez un grand nombre de personnes et demandez-leur: "Les prévisions météorologiques pour la température d'aujourd'hui comportaient une grande erreur positive . Pensez-vous que les prévisions étaient (A) trop élevées ou (B) trop basses ?" Je pense pouvoir prédire lequel de (A) ou (B) une majorité écrasante choisira.

— S. Kolassa - Réintégrer Monica le

6

Oui, et si vous formuliez cette question comme suit: "Pensez-vous que la température était (A) supérieure ou (B) inférieure aux prévisions", vous pourriez très bien obtenir exactement les réponses opposées ! Faire référence à une "erreur positive" ne soulève que la question de "quelle est l'erreur", ce qui nous ramène - de manière parfaitement circulaire - à la question initiale.

— whuber

2

@ Whuber, cependant, c'est une formulation peu naturelle de la question. Étant donné que le "observé" est "fixe", la relation entre le modèle et celui-ci semble plus naturelle que l'inverse. Je reçois un contravention pour excès de vitesse, plutôt que "la limite de vitesse était inférieure à ma vitesse". Les arguments en langage naturel ont définitivement une application limitée aux termes techniques / langage cependant /

— mbrig

2

@whuber Ce que je dis, c'est qu'une façon de formuler la question est clairement plus naturelle (au moins en anglais).

— mbrig

4

Une terminologie différente suggère différentes conventions. Le terme "résiduel" implique que c'est ce qui reste après que toutes les variables explicatives ont été prises en compte, c'est-à-dire les prévisions réelles. "Erreur de prédiction" implique qu'il s'agit de la différence entre la prédiction et le réel, c'est-à-dire la prédiction - le réel.

$X = x_1,x_2...$ $y$ $\hat y$

$y$ $\hat y$ $X$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $y$ $e = \hat y -y$

$\hat y$ $X$ $X$ $x \rightarrow f(X)\rightarrow f(X)+error()$ $\hat y$ $X$ $y$ $\sqrt{\frac{2x}{g}}$

$\hat y = \sqrt{\frac{2x}{g}}$
$y = \hat y +error$ .

C'est-à-dire que vous prenez la variable y et considérez qu'il existe une "vraie" valeur $\hat y$ $y$ $\hat y$ $X$ , tels que des erreurs de mesure ou des rafales de vent ou autre chose.

$\sqrt{\frac{2x}{g}}$ $y = \hat y +error$

$X$

$\hat y = f(X)$
$y = \hat y+g(?)$
$g = y-\hat y$

— Accumulation
source

4

La réponse de @Aksakal est tout à fait correcte, mais je vais simplement ajouter un élément supplémentaire qui, selon moi, m'aide (ainsi que mes étudiants).

La devise: les statistiques sont "parfaites". Au fur et à mesure, je peux toujours fournir la prédiction parfaite (je sais que des sourcils se lèvent en ce moment ... alors écoutez-moi).

$y_i$ $\hat{y}_i$

y_{i} \neq {\hat{y}}_{i}

$y_i \ne \hat{y}_i$

ϵ_{i}

$\epsilon_i$

y_{i} = {\hat{y}}_{i} + ϵ_{i}

$y_i = \hat{y}_i + \epsilon_i$ Maintenant, nous avons une prédiction "parfaite" ... notre valeur "finale" correspond à notre valeur observée.

$\epsilon_i$

— Gregg H
source

2

{\hat{y}}_{i} - y_{i}

$\hat{y}_i - y_i$

6

Pourquoi "mieux l'ajouter à notre valeur prédite"? Pourquoi ne pas "voir combien la donnée doit être ajustée pour être en accord avec notre prédiction"? Aucune de ces approches ne semble prétendre être plus évidente, significative ou "intuitive" que l'autre.

— whuber

2

@whuber un élément est "réel" (observé, concret), l'autre est un construit (hypothétique); si nous modélisions la hauteur en fonction du poids, serait-il raisonnable de "réduire" une personne de 3 pouces juste pour faire correspondre sa hauteur réelle / observée à une valeur prédite (imaginaire)?

— Gregg H

2

Oui, c’est une façon courante de penser aux données. J'essaie seulement de souligner la possibilité que vos hypothèses sur la manière dont les gens percevront cette question et comprendront la signification de "meilleur" pourraient être spéculatives et subjectives.

— whuber

bon point ... va mettre à jour avec un bref commentaire

— Gregg H

2

$\newcommand{\e}{\varepsilon}$ $Y = X\beta + \e$ $\e = Y - X\beta$ $\hat \e = Y - \hat Y$ $Y = X\beta - \e$ $\e = X\beta - Y \implies \hat \e = \hat Y - Y$ $1$ $-1$

$\hat \e = Y - \hat Y$ $(I - P_X)Y$ $I - P_X$ $X$ $Y = X\beta - \e$ $\hat \e = (P_X - I)Y$ $P_X - I$ $(P_X - I)^2 = P_X^2 - 2P_X + I = -(P_X - I)$ $P_X - I$ $I - P_X$ $Y = X\beta - \e$ $Y = X\beta + \e$ $Y - \hat Y$ comme les résidus.

$\hat Y - Y$ $Y - \hat Y$

— jld
source

+ e

$+ e$

e

$e$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

e

$e$

Y = X β + ε

$Y = X\beta + \varepsilon$