Distribution normale multivariée du coefficient de régression?


12

En lisant un manuel sur la régression, j'ai rencontré le paragraphe suivant:

L'estimation des moindres carrés d'un vecteur de coefficients de régression linéaire ( ) estβ

β^=(XtX)1Xty

qui, considérée en fonction des données (en considérant les prédicteurs comme des constantes), est une combinaison linéaire des données. En utilisant le théorème de la limite centrale, on peut montrer que la distribution de sera approximativement normale à plusieurs variables si la taille de l'échantillon est grande.X βyXβ

Il me manque définitivement quelque chose dans le texte, mais je ne comprends pas comment une seule valeur avoir une distribution? Comment les multiples valeurs générées pour obtenir la distribution mentionnée dans le texte?βββ


4
est le vecteur des coefficients de régression - cela clarifie-t-il la confusion? β
Macro

5
Lorsque vous utilisez l'approche des moindres carrés, vous supposez que est fixe mais inconnu. Cependant, β , car il est fonction des données (aléatoire), a une distribution. Asymptotiquement, la distribution est une distribution normale. Non asymptotiquement, un coefficient individuel sera à la distribution. ββ^
Taylor

7
Il peut être utile d'observer que est considéré comme une matrice constante dans le paramètre de régression et que y est la réalisation d'une variable aléatoire (à valeur vectorielle). Ce bit sur le CLT, cependant, n'est pas tout à fait correct: il repose soit sur H ayant une certaine structure, qui parfois ne se produit pas même avec d'énormes ensembles de données, ou bien sur y lui-même étant normal à plusieurs variables (mais alors il n'y a pas besoin de invoquer le CLT). H=(XtX)1XtyHy
whuber

@ Taylor Mais comment savez-vous la distribution de B si la seule chose que je sais, c'est que la "taille de l'échantillon est grande"?
dessus

2
@Taylor La composante individuelle du bêta-vacteur n'aura à la distribution que si la composante d'erreur dans le modèle de régression est gaussienne avec 0 moyenne et variance constante. Dans le cas non normal, vous ne connaîtriez pas nécessairement sa distribution sous l'hypothèse nulle mais elle peut toujours être asymptotiquement normale. Cependant, comme l'affirme Whuber, le théorème de la limite centrale peut ne pas tenir car il s'agit d'une moyenne pondérée et nous devons savoir que les poids ne correspondent pas à la taille de l'échantillon d'une manière qui permet à quelques termes de dominer la somme.
Michael R. Chernick

Réponses:


5

Non a une distribution mais β , comme indiqué par Taylor. La répartition des β provient du fait que vous obtenez différents β pour différents échantillons .--- Vous pouvez estimer cette répartition en fonction de la seule β reçue de votre seul échantillon à condition que vous avez des informations concernant la répartition des données sous-jacentes.ββ^β^β^β^

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.