Pourquoi des distances verticales?


11

Pourquoi l'estimation OLS implique-t-elle de prendre des écarts verticaux des points vers la ligne plutôt que des distances horizontales?


1
Vieille question, mais je pense que voir les données comme un échantillon d'une distribution de probabilité paramétrée par x est utile
Bendy

Réponses:


12

OLS ( moindres carrés ordinaires ) suppose que les valeurs représentées par les distances horizontales sont soit prédéterminées par l'expérimentateur, soit mesurées avec une grande précision (par rapport aux distances verticales). Lorsqu'il y a une question d'incertitude dans les distances horizontales, vous ne devriez pas utiliser OLS, mais plutôt vous pencher sur les modèles d'erreurs dans les variables ou, éventuellement, sur l' analyse des composants principaux .


La «régression orthogonale» est une autre chose que l'on peut rencontrer lors de la recherche de méthodes pour traiter les abscisses et ordonnées contaminées.
JM n'est pas statisticien

+1 Ceci n'est encore qu'une niche dans les statistiques; les méthodes des moindres carrés plus complexes (non seulement en ajoutant la variabilité X mais aussi des pénalités différentes pour les points en fonction des approximations d'erreur) sont courantes en physique expérimentale; Le cadre ROOT en contient des dizaines.

1

Question interessante. Ma réponse serait que lorsque nous ajustons un modèle OLS, nous essayons implicitement et principalement de prédire / expliquer la variable dépendante à portée de main - le «Y» dans le «Y vs X». En tant que tel, notre principale préoccupation serait de minimiser la distance entre notre ligne ajustée et les observations réelles par rapport au résultat, ce qui signifie minimiser la distance verticale. Ceci définit bien sûr les résidus.

En outre, les formules des moindres carrés sont plus faciles à dériver que la plupart des autres méthodes concurrentes, c'est peut-être la raison pour laquelle elles sont apparues en premier. : P

Comme «whuber» fait allusion à ce qui précède, il existe d'autres approches qui traitent X et Y avec une importance égale lors de l'ajustement d'une ligne la mieux adaptée. Une telle approche que je connais est la régression des "lignes principales" ou des "courbes principales", qui minimise les distances orthogonales entre les points et la ligne (au lieu d'une ligne d'erreur verticale, vous en avez à 90 degrés par rapport à la ligne ajustée) . Je poste une référence ci-dessous pour votre lecture. C'est long mais très accessible et instructif.

J'espère que cela aide, Brenden

  1. Trevor Hastie. Principales courbes et surfaces , thèse de doctorat, Stanford University; 1984

1

Elle peut également concerner des expériences conçues - si x est une quantité contrôlée qui fait partie de la conception expérimentale, elle est traitée comme déterministe; tandis que y est le résultat, et est une quantité aléatoire. x peut être une quantité continue (par exemple la concentration d'un médicament) mais peut être une division de 0/1 (conduisant à un test t à 2 échantillons en supposant que y est gaussien). Si x est une quantité continue, il peut y avoir une erreur de mesure, mais généralement si elle est beaucoup plus petite que la variabilité de y, cela est ignoré.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.