Qu'est-ce qu'une liste complète des hypothèses habituelles pour la régression linéaire?


72

Quelles sont les hypothèses habituelles pour la régression linéaire?

Incluent-ils:

  1. une relation linéaire entre la variable indépendante et la variable dépendante
  2. erreurs indépendantes
  3. distribution normale des erreurs
  4. homoscédasticité

Y en a-t-il d'autres?


3
Vous trouverez une liste assez complète dans le petit livre de William Berry sur "Comprendre les hypothèses de régression": books.google.com/books/about/…

3
Bien que les répondants aient énuméré de bonnes ressources, il est difficile de répondre à cette question dans ce format, et (beaucoup) de livres ont été consacrés uniquement à ce sujet. Il n’existe pas de livre de recettes et il ne faut pas non plus tenir compte de la diversité potentielle de situations pouvant faire l’objet d’une régression linéaire.
Andy W

3
Techniquement, la régression linéaire (ordinaire) est un modèle de la forme , Y i iid. Ce simple énoncé mathématique englobe toutes les hypothèses. Ceci m'amène à penser, @Andy W, que vous interprétez peut-être la question plus largement, peut-être au sens de l'art et de la pratique de la régression. Vos réflexions à ce sujet pourraient être utiles ici. E[Yi]=XiβYi
whuber

2
@Andy WI n'essayait pas de suggérer que votre interprétation était incorrecte. Votre commentaire suggérait une façon de penser la question allant au-delà des hypothèses techniques, peut-être en indiquant ce qui pourrait être nécessaire pour interpréter correctement les résultats de la régression. Il ne serait pas nécessaire de rédiger un traité en guise de réponse, mais même une liste de certains de ces problèmes plus vastes pourrait être éclairante et pourrait élargir la portée et l'intérêt de ce fil.
whuber

1
@whuber, si cela signifie que les moyens sont différents pour différents i , d' où Y i ne peut pas être iid :)EYi=XiβiYi
mpiktas

Réponses:


78

La réponse dépend fortement de la définition que vous donnez complète et habituelle. Supposons que nous modèle de régression linéaire de la manière suivante:

yi=xiβ+ui

où est le vecteur des variables prédictives, est le paramètre d'intérêt, est la variable de réponse et est la perturbation. Une des estimations possibles de est l'estimation des moindres carrés: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

Maintenant, pratiquement tous les manuels traitent des hypothèses lorsque cette estimation a des propriétés souhaitables, telles que non-biais, cohérence, efficacité, certaines propriétés de distribution, etc.β^

Chacune de ces propriétés nécessite certaines hypothèses, qui ne sont pas les mêmes. La meilleure question serait donc de demander quelles hypothèses sont nécessaires pour les propriétés recherchées de l'estimation LS.

Les propriétés que je mentionne ci-dessus nécessitent un modèle de probabilité pour la régression. Et nous avons ici la situation où différents modèles sont utilisés dans différents domaines appliqués.

Le cas simple consiste à traiter comme une variable aléatoire indépendante, étant non aléatoire. Je n'aime pas le mot habituel, mais on peut dire que c'est le cas habituel dans la plupart des domaines appliqués (pour autant que je sache).yixi

Voici la liste de certaines des propriétés souhaitables des estimations statistiques:

  1. L'estimation existe.
  2. Impartialité: .Eβ^=β
  3. Cohérence: comme ( est la taille d’un échantillon de données).β^βnn
  4. Efficacité: est plus petit que pour les estimations alternatives de .Var(β^)Var(β~)β~β
  5. La possibilité d'approcher ou de calculer la fonction de distribution de .β^

Existence

La propriété d'existence peut sembler étrange, mais c'est très important. Dans la définition de nous inversons la matrice β^xixi.

Il n'est pas garanti que l'inverse de cette matrice existe pour toutes les variantes possibles de . Nous obtenons donc immédiatement notre première hypothèse:xi

Matrix devrait être de rang complet, c’est-à-dire inversible.xixi

Impartialité

Nous avons si

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Nous pouvons la numéroter comme la deuxième hypothèse, mais nous l’avons peut-être énoncée clairement, car c’est l’une des façons naturelles de définir une relation linéaire.

Notez que pour obtenir un biais, nous avons seulement besoin de pour tout et sont des constantes. La propriété d'indépendance n'est pas requise.Eyi=xiβixi

Cohérence

Pour obtenir les hypothèses de cohérence , nous devons dire plus clairement ce que nous entendons par . Pour les séquences de variables aléatoires, nous avons différents modes de convergence: en probabilité, presque sûrement, en distribution et en sens moment. Supposons que nous voulions obtenir la convergence en probabilité. Nous pouvons utiliser soit la loi des grands nombres, soit directement l’inégalité de Chebyshev à plusieurs variables (en utilisant le fait que ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Cette variante de l'inégalité découle directement de l'application de l'inégalité de Markov à , en notant que .)β^β2Eβ^β2=TrVar(β^)

Puisque la convergence de probabilité signifie que le terme de gauche doit disparaître pour tout comme , nous avons besoin de cela comme . Ceci est parfaitement raisonnable car avec plus de données, la précision avec laquelle nous estimons que le devrait augmenter.ε>0nVar(β^)0nβ

Nous avons que

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

L’indépendance garantit que , d’où l’expression simplifiée pour Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Supposons maintenant , puis Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Maintenant, si nous exigeons en plus que soit borné pour chaque , nous obtenons immédiatement 1nxixin

Var(β)0 as n.

Donc, pour obtenir la cohérence, nous supposons qu’il n’ya pas d’autocorrélation ( ), la variance est constante et les ne croissent pas trop. La première hypothèse est satisfaite si provient d'échantillons indépendants.Cov(yi,yj)=0Var(yi)xiyi

Efficacité

Le résultat classique est le théorème de Gauss-Markov . Les conditions pour cela sont exactement les deux premières conditions pour la cohérence et la condition pour la neutralité.

Propriétés de distribution

Si est normal, nous obtenons immédiatement que est normal puisqu'il s'agit d'une combinaison linéaire de variables aléatoires normales. Si nous supposons des hypothèses antérieures d’indépendance, de non corrélation et de variance constante, nous obtenons que où .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Si n'est pas normal, mais indépendant, nous pouvons obtenir une distribution approximative de grâce au théorème de la limite centrale. Pour cela , nous devons supposer que pour une matrice . La variance constante pour la normalité asymptotique n’est pas nécessaire si nous supposons que yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Notez qu'avec la variance constante de , nous avons que . Le théorème central limite nous donne alors le résultat suivant:yB=σ2A

n(β^β)N(0,A1BA1).

Nous voyons donc que l'indépendance et la variance constante pour et certaines hypothèses pour nous donnent beaucoup de propriétés utiles pour l'estimation LS .yixiβ^

Le fait est que ces hypothèses peuvent être assouplies. Par exemple, nous avons demandé que ne soient pas des variables aléatoires. Cette hypothèse n'est pas réalisable dans les applications économétriques. Si on laisse être aléatoire, on peut obtenir des résultats similaires si on utilise des attentes conditionnelles et prend en compte le caractère aléatoire de . L'hypothèse d'indépendance peut également être assouplie. Nous avons déjà démontré que, parfois, seule une décorrélation est nécessaire. Même cela peut être encore assoupli et il est encore possible de montrer que l'estimation de la LS sera cohérente et asymptotiquement normale. Voir par exemple le livre de White pour plus de détails.xixixi


Un commentaire sur le théorème de Gauss-Markov. Il indique seulement que les MCO sont meilleurs que les autres estimateurs qui sont des fonctions linéaires des données. Cependant, de nombreux estimateurs couramment utilisés, en particulier le maximum de vraisemblance (ML), ne sont pas des fonctions linéaires des données et peuvent être beaucoup plus efficaces que la méthode MCO dans les conditions du théorème de Gauss-Markov.
Peter Westfall

@ PeterWestfall Pour les erreurs normales gaussiennes, MLE est l'OLS :) Et vous ne pouvez pas obtenir plus d'efficacité que MLE. J'ai essayé d'être léger avec des détails mathématiques dans ce post.
Mpiktas

1
Mon point de vue était qu'il y a beaucoup d'estimateurs plus efficaces que les MCO dans des distributions non normales lorsque les conditions de GM se maintiennent. GM est essentiellement inutile en tant qu'affirmation que les MCO sont "bonnes" en non-normalité, car les meilleurs estimateurs dans des cas non normaux sont des fonctions non linéaires des données.
Peter Westfall

@mpiktas Donc nous prenons comme non aléatoire et utilisons estimateur ou prenons comme aléatoire et utilisons estimateur ? xY^xY|x^
Parthiban Rajendran

16

Il y a un certain nombre de bonnes réponses ici. Il me semble qu’il existe une hypothèse qui n’a toutefois pas été énoncée (du moins pas explicitement). Plus précisément, un modèle de régression suppose que (les valeurs de vos variables explicatives / prédictives) est fixe et connue et que toute l'incertitude de la situation existe dans la variableDe plus, cette incertitude est supposée être une erreur d'échantillonnage seulement. XY

Voici deux façons de penser à cela: Si vous construisez un modèle explicatif (modélisant des résultats expérimentaux), vous savez exactement quels sont les niveaux des variables indépendantes, car vous les avez manipulés / administrés. De plus, vous avez décidé quels seraient ces niveaux avant de commencer à collecter des données. Vous conceptualisez donc toute l'incertitude de la relation telle qu'elle existe dans la réponse. Par contre, si vous construisez un modèle prédictif, il est vrai que la situation diffère, mais vous traitez toujours les prédicteurs comme s'ils étaient fixes et connus, car, à l'avenir, lorsque vous utilisez le modèle pour faire une prédiction. sur la valeur probable de , vous aurez un vecteur,yxet le modèle est conçu pour traiter ces valeurs comme si elles étaient correctes. C'est-à-dire que vous allez concevoir l'incertitude comme étant la valeur inconnue de . y

Ces hypothèses se retrouvent dans l’équation d’un modèle de régression prototype: Un modèle avec incertitude (peut-être dû à une erreur de mesure) dans pourrait également avoir le même processus de génération de données, mais le modèle Cela devrait ressembler à ceci: où représente une erreur de mesure aléatoire. (Des situations comme celle-ci ont conduit à travailler sur des erreurs dans des modèles de variables ; un résultat fondamental est que s'il existe une erreur de mesure dans , le naïf

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1serait atténué - plus proche de 0 que sa valeur réelle, et que s'il y avait une erreur de mesure dans , les tests statistiques des seraient sous-alimentés, mais non biaisés.) yβ^

Une conséquence pratique de l'asymétrie intrinsèque dans l'hypothèse typique est que la régression de sur est différente de la régression de sur . (Voir ma réponse ici: Quelle est la différence entre une régression linéaire sur y avec x et x avec y? Pour une discussion plus détaillée de ce fait.)yxxy


Qu'est-ce que cela signifie "fixe" | "aléatoire" en langage clair? Et comment distinguer les effets fixes des effets aléatoires (= facteurs)? Je pense que dans ma conception il y a 1 facteur connu fixe avec 5 niveaux. Droite?
Stan

1
@stan, je reconnais votre confusion. La terminologie utilisée dans les statistiques est souvent source de confusion et inutile. Dans ce cas, "fixé" n'est pas tout à fait le même que celui fixé dans "effets fixes et effets aléatoires" (bien qu'ils soient liés). Ici, nous ne parlons pas d'effets - nous parlons des données , c'est-à-dire de vos variables explicatives / prédictives. Le moyen le plus simple de comprendre l’idée que vos données soient corrigées est de penser à une expérience planifiée. Avant de faire quoi que ce soit, lorsque vous concevez l'expérience, vous décidez quels seront les niveaux de votre explication, vous ne les découvrirez pas en cours de route. XX
gung - Réintégrer Monica

W / modélisation prédictive, ce n'est pas tout à fait vrai, mais nous traiterons nos données de cette manière à l'avenir, lorsque nous utiliserons ce modèle pour faire des prédictions. X
gung - Réintégrer Monica

Pourquoi les βs et les ε ont-ils un chapeau dans l’équation inférieure, mais pas dans l’équation supérieure?
user1205901

2
@ user1205901, le modèle du haut est celui du processus de génération de données, le bas est votre estimation.
gung - Réintégrer Monica

8

Les hypothèses du modèle de régression linéaire classique comprennent:

  1. Paramètre linéaire et spécification de modèle correcte
  2. Rang complet de la matrice X
  3. Les variables explicatives doivent être exogènes
  4. Termes d'erreur indépendants et distribués de manière identique
  5. Termes d'erreur distribués normaux dans la population

Bien que les réponses ici fournissent déjà un bon aperçu de l'hypothèse classique de la méthode MCO, vous pouvez trouver ici une description plus complète de l'hypothèse du modèle de régression linéaire classique:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

En outre, l'article décrit les conséquences dans le cas où certaines violations sont violées.


6

Différentes hypothèses peuvent être utilisées pour justifier MLS

  • Dans certaines situations, un auteur teste les résidus pour la normalité.
    • Mais dans d'autres situations, les résidus ne sont pas normaux et l'auteur utilise quand même le logiciel OLS!
  • Vous verrez des textes disant que l'homoscédasticité est une hypothèse.
    • Mais vous voyez des chercheurs utiliser les MCO quand l'homoscédasticité est violée.

Ce qui donne?!

Une réponse est que des ensembles d'hypothèses légèrement différents peuvent être utilisés pour justifier l'utilisation d'une estimation par les moindres carrés ordinaires. OLS est un outil qui ressemble à un marteau: vous pouvez utiliser un marteau sur des clous mais vous pouvez également l'utiliser sur des piquets, pour briser la glace, etc.

Deux grandes catégories d’hypothèses sont celles qui s’appliquent aux petits échantillons et celles qui reposent sur de grands échantillons, de sorte que le théorème de la limite centrale puisse être appliqué.

1. Hypothèses de petit échantillon

Les hypothèses de petit échantillon discutées dans Hayashi (2000) sont les suivantes:

  1. La linéarité
  2. Exogénéité stricte
  3. Pas de multicolinéarité
  4. Erreurs sphériques (homoscédasticité)

Sous (1) - (4), le théorème de Gauss-Markov s'applique et l'estimateur des moindres carrés ordinaire est le meilleur estimateur linéaire sans biais.

  1. Normalité des termes d'erreur

En supposant que les termes d’erreur normaux permettent de tester les hypothèses . Si les termes d'erreur sont conditionnellement normaux, la distribution de l'estimateur MCO est également conditionnellement normale.

Un autre point à noter est qu'avec la normalité, l'estimateur MLS est aussi l' estimateur du maximum de vraisemblance .

2. Hypothèses de grande taille

Ces hypothèses peuvent être modifiées / assouplies si nous avons un échantillon suffisamment grand pour pouvoir nous appuyer sur la loi des grands nombres (pour la cohérence de l'estimateur MLS) et sur le théorème de la limite centrale (afin que la distribution d'échantillonnage de l'estimateur MLS converge vers la distribution normale et nous pouvons faire des tests d'hypothèses, parler de p-values ​​etc ...).

Hayashi est un spécialiste de la macroéconomie et ses hypothèses de grande taille sont formulées en tenant compte du contexte des séries chronologiques:

  1. linéarité
  2. stationnarité ergodique
  3. régresseurs prédéterminés: les termes d'erreur sont orthogonaux à leurs termes d'erreur contemporains.
  4. E[xx] est au rang entier
  5. xiϵi est une séquence de différence de martingale avec des moments de secondes finies.
  6. 4èmes moments finis de régresseurs

Vous pouvez rencontrer des versions plus fortes de ces hypothèses, par exemple, que les termes d'erreur sont indépendants.

Les grandes hypothèses d'échantillon appropriées vous conduisent à une distribution d'échantillonnage de l'estimateur MCO asymptotiquement normale.

Références

Hayashi, Fumio, 2000, économétrie


5

Tout dépend de ce que vous voulez faire avec votre modèle. Imaginez si vos erreurs étaient asymétriques / non normales. Si vous voulez faire un intervalle de prédiction, vous pourriez faire mieux que d'utiliser la distribution t. Si votre variance est plus petite avec des valeurs prédites plus petites, là encore, vous feriez un intervalle de prédiction trop grand.

Il vaut mieux comprendre pourquoi les hypothèses sont là.


4

Les diagrammes suivants montrent quelles hypothèses sont nécessaires pour obtenir quelles implications dans les scénarios finis et asymptotiques.

Hypothèses finies sur les MCO

hypothèses asymptotiques MCO

Je pense qu'il est important de réfléchir non seulement à ce que sont les hypothèses, mais aussi à leurs implications. Par exemple, si vous vous souciez seulement d'avoir des coefficients non biaisés, vous n'avez pas besoin de l'homoscédasticité.


2

Ce qui suit sont les hypothèses de l'analyse de régression linéaire.

Spécification correcte . La forme fonctionnelle linéaire est correctement spécifiée.

Exogénéité stricte . Les erreurs dans la régression doivent avoir une moyenne conditionnelle nulle.

Pas de multicolinéarité . Les régresseurs dans X doivent tous être linéairement indépendants.

Homoscédasticité, ce qui signifie que le terme d'erreur a la même variance dans chaque observation.

Pas d'autocorrélation : les erreurs ne sont pas corrélées entre les observations.

Normalité. On suppose parfois en outre que la distribution normale des erreurs est fonction des régresseurs.

Observations de Iid : est indépendant de et a la même distribution que, pour tout .(xi,yi)(xj,yj)ij

Pour plus d'informations, visitez cette page .


4
Plutôt que "pas de multicolinéarité", je dirais "pas de dépendance linéaire". La colinéarité est souvent utilisée comme mesure continue plutôt que catégorique. Seule la colinéarité stricte ou exacte est interdite.
Peter Flom - Rétablir Monica

2
Qu'en est-il de la régression des séries chronologiques? Qu'en est-il des moindres carrés généralisés? Votre liste se lit un peu comme une liste de commandements alors qu'en fait, les quatre dernières hypothèses peuvent être trop restrictives si nous ne nous soucions que de la cohérence et de la normalité asymptotique de l'estimation des moindres carrés.
Mpiktas

1
La multicolinéarité pose des problèmes d' interprétation (liés à l'identifiabilité de certains paramètres) mais ce n'est certainement pas une hypothèse standard des modèles de régression linéaire. La quasi- multicolinéarité est avant tout un problème de calcul , mais soulève également des problèmes d'interprétation similaires.
whuber

@whuber & Peter Flom: Comme je l'ai lu dans le livre de Gujarati à la page no. 65-75. tiny.cc/cwb2g Il compte le "pas de multicolinéarité" comme une hypothèse d'analyse de régression.
love-stats

@mpiktas: Si vous visitez l'URL donnée dans la réponse, vous trouverez une hypothèse sur la régression de série temporelle.
love-stats

2

Il n’existe pas de liste unique d’hypothèses, il y en aura au moins 2: une matrice fixe et une matrice aléatoire. De plus, vous voudrez peut-être examiner les hypothèses pour les régressions de séries temporelles (voir p.13).

Le cas où la matrice de conception est fixée pourrait être le plus courant, et ses hypothèses sont souvent exprimées sous forme de théorème de Gauss-Markov . La conception fixe signifie que vous contrôlez vraiment les régresseurs. Par exemple, vous réalisez une expérience et pouvez définir des paramètres tels que la température, la pression, etc. Voir également p.13 ici .X

Malheureusement, dans les sciences sociales telles que l'économie, il est rarement possible de contrôler les paramètres de l'expérience. Habituellement, vous observez ce qui se passe dans l'économie, enregistrez les mesures de l'environnement, puis régressez-les. Il s’avère qu’il s’agit d’une situation très différente et plus difficile, appelée conception aléatoire . Dans ce cas, le théorème de Gauss-Markov est modifié également voir p.12 ici . Vous pouvez voir comment les conditions sont maintenant exprimées en termes de probabilités conditionnelles , ce qui n’est pas un changement anodin.

En économétrie, les hypothèses ont des noms:

  • linéarité
  • exogénéité stricte
  • pas de multicolinéarité
  • Variance d'erreur sphérique (comprend l'homoscédasticité et aucune corrélation)

Notez que je n'ai jamais mentionné la normalité. Ce n'est pas une hypothèse standard. Il est souvent utilisé dans les cours de régression d'introduction car il facilite certaines dérivations, mais il n'est pas nécessaire que la régression fonctionne et possède de belles propriétés.


1

L'hypothèse de linéarité est que le modèle est linéaire dans les paramètres. Il est bon d’avoir un modèle de régression avec des effets quadratiques ou d’ordre supérieur tant que la fonction de puissance de la variable indépendante fait partie d’un modèle linéaire additif. Si le modèle ne contient pas de termes d'ordre supérieur quand il le devrait, le manque d'ajustement apparaîtra dans le graphique des résidus. Cependant, les modèles de régression standard n'incluent pas de modèles dans lesquels la variable indépendante est élevée à la puissance d'un paramètre (bien que d'autres approches puissent être utilisées pour évaluer de tels modèles). Ces modèles contiennent des paramètres non linéaires.


1

Le coefficient de régression des moindres carrés permet de résumer la tendance du premier ordre dans tout type de données. @mpiktas answer est un traitement approfondi des conditions dans lesquelles les moindres carrés sont de plus en plus optimaux. J'aimerais faire l'inverse et montrer le cas le plus général où les moindres carrés fonctionnent. Voyons la formulation la plus générale de l'équation des moindres carrés:

E[Y|X]=α+βX

C'est juste un modèle linéaire pour la moyenne conditionnelle de la réponse.

Notez que j'ai bloqué le terme d'erreur. Si vous souhaitez résumer l'incertitude de , vous devez faire appel au théorème de la limite centrale. La classe la plus générale d'estimateurs des moindres carrés converge vers la normale lorsque la condition de Lindeberg est remplie : pour résumer, la condition de Lindeberg pour les moindres carrés exige que la fraction du plus grand résidu au carré jusqu'à la somme de la somme des résidus au carré soit égale à 0 . Si votre conception continue à échantillonner des résidus de plus en plus grands, l'expérience est "morte dans l'eau".βn

Lorsque la condition de Lindeberg est remplie, le paramètre de régression est bien défini et l'estimateur est un estimateur non biaisé ayant une distribution approximative connue. Des estimateurs plus efficaces peuvent exister. Dans d'autres cas d'hétéroscédasticité, ou de données corrélées, un estimateur pondéré est généralement plus efficace . C'est pourquoi je ne préconiserais jamais l'utilisation de méthodes naïves lorsque de meilleures méthodes sont disponibles. Mais souvent ils ne le sont pas!ββ^


1
Pour les économétriciens: Il convient de souligner que cette condition implique une exogénéité stricte. Par conséquent, l'exogénéité stricte n'a pas besoin d'être énoncée comme hypothèse dans le modèle de moyenne conditionnelle. C'est automatiquement vrai, mathématiquement. (On parle de théorie ici, pas d'estimation.)
Peter Westfall
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.