J'étais un peu confus par la réponse ci-dessus, donc je vais lui donner un autre coup. Je pense que la question ne concerne pas réellement la régression linéaire «classique» mais le style de cette source particulière. Sur la partie régression classique:
Cependant, l'hypothèse de linéarité en soi ne met pas de structure sur notre modèle
C'est tout à fait exact. Comme vous l'avez dit, pourrait aussi bien tuer la relation linéaire et additionner quelque chose de complètement indépendant de afin que nous ne puissions calculer aucun modèle du tout.ϵX
Greene est-il bâclé? Doit-il effectivement avoir écrit:E(y|X)=Xβ
Je ne veux pas répondre à la première question, mais permettez-moi de résumer les hypothèses dont vous avez besoin pour la régression linéaire habituelle:
Supposons que vous observez (on vous donne) les points de données et pour . Vous devez supposer que les données vous avez observées proviennent de variables aléatoires indépendantes et identiques telles que ...xi∈Rdyi∈Ri=1,...,n(xi,yi)(Xi,Yi)
Il existe un fixe (indépendant de ) tel que pour tout et les variables aléatoires sont telles queiβ∈RdYi=βXi+ϵiiϵi
Les sont également iid et est distribué comme ( doit être indépendant de également)ϵiϵiN(0,σ)σi
Pour et les variables ont une densité commune, c'est-à-dire que la variable aléatoire unique a une densitéX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y
Vous pouvez maintenant exécuter le chemin habituel et calculer
fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd−−−√)nexp(−∑ni=1(yi−βxi)22σ)
de sorte que par la «dualité» habituelle entre l'apprentissage automatique (minimisation des fonctions d'erreur) et la théorie des probabilités (maximisation des probabilités) vous maximisez dans qui, en fait, vous donne les trucs habituels "RMSE".β−logfY|X(y|x)β
Maintenant, comme indiqué: si l'auteur du livre que vous citez veut faire valoir ce point (ce que vous devez faire si vous voulez pouvoir calculer la `` meilleure ligne de régression possible '' dans la configuration de base), alors oui, il doit faire cette hypothèse sur la normalité du quelque part dans le livre.ϵ
Il existe maintenant différentes possibilités:
Il n'écrit pas cette hypothèse dans le livre. C'est alors une erreur dans le livre.
Il l'écrit sous la forme d'une remarque «globale» comme «chaque fois que j'écris alors les sont normalement distribués avec une moyenne nulle sauf indication contraire». Ensuite, à mon humble avis, c'est un mauvais style car cela provoque exactement la confusion que vous ressentez en ce moment. C'est pourquoi j'ai tendance à écrire les hypothèses sous une forme abrégée dans chaque théorème. Ce n'est qu'alors que chaque bloc de construction peut être vu proprement en soi.ϵ+ϵϵ
- Il l'écrit étroitement à la partie que vous citez et vous / nous ne l'avons tout simplement pas remarqué (également une possibilité :-))
Cependant, également au sens mathématique strict, l'erreur normale est quelque chose de canonique (la distribution avec l'entropie la plus élevée [une fois que la variance est fixée], d'où la production des modèles les plus forts), de sorte que certains auteurs ont tendance à ignorer cette hypothèse mais à l'utiliser de façon non négligeable . Formellement, vous avez absolument raison: ils utilisent les mathématiques de la «mauvaise façon». Chaque fois qu'ils veulent trouver l'équation pour la densité comme indiqué ci-dessus, ils ont besoin de bien connaître , sinon vous en avez juste des propriétés qui volent dans chaque équation sensée que vous essayez d'écrire . ϵfY|Xϵ