Distribution des erreurs pour la régression linéaire et logistique

Avec des données continues, une régression linéaire $Y=\beta_1+\beta_2X_2+u$ suppose que le terme d'erreur est distribué N (0, $\sigma^2$ )

1) Supposons-nous que Var (Y | x) est également ~ N (0, $\sigma^2$ )?

2) Quelle est cette distribution d'erreur dans la régression logistique? Lorsque les données sont sous la forme d'un enregistrement par cas, où le «Y» est 1 ou 0, le terme d'erreur est-il distribué Bernoulli (c.-à-d. La variance est p (1-p))) et lorsque les données sont sous la forme # succès sur # d'essais, est-il supposé binomial (c'est-à-dire que la variance est np (1-p)), où p est la probabilité que Y soit 1?

logistic generalized-linear-model

— B_Miner
source

Vous n'êtes pas précis. L'hypothèse du modèle est que les termes d'erreur sont indépendants et identiquement distribués avec une distribution qui est N (0, σ

) et n'est pas liée à la COVARIATE. Qu'est-ce que Var (Y | x)? Êtes-vous conditionné sur X

= x? Le modèle suppose-t-il que la covariable est aléatoire d'une manière ou d'une autre, alors nous supposons que la covariable est fixée selon une matrice de conception? Je pense que c'est ce dernier et donc Var (Y | X

= x) est impliqué par les hypothèses et n'a pas besoin d'être supposé.

^{2}

$^2$

_{2}

$_2$

_{2}

$_2$

— Michael R. Chernick

@MichaelChernick Pourquoi le modèle suppose-t-il que

est fixe? Il peut certainement être le cas, mais il peut également être aléatoire. Rien dans la question ne m'implique.

X_{2}

$X_2$

— Peter Flom

@PeterFlom J'ai lu dans la question que la régression linéaire avec cette distribution d'erreur supposée signifiait OLS qui nécessite que X

soit fixé et connu. Si quelqu'un a une régression de Deming (c.-à-d. Une erreur de régression des variables), cela serait spécifié dans la question. En regardant la réponse donnée par Stat, il indique qu'il a également interprété la question de cette façon.

_{2}

$_2$

— Michael R. Chernick

@Michael, je supposais un X fixe.

— B_Miner

1) Si a une distribution normale c'est-à-dire alors , puisque n'est pas une variable aléatoire. $u$ $N(0,σ^2)$ $Var(Y|X_2)=Var(β_1+β_2X_2)+Var(u)=0+σ^2=σ^2$ $β_1+β_2X_2$

2) Dans la régression logistique, on suppose que les erreurs suivent une distribution binomiale comme mentionné ici . Il vaut mieux l'écrire comme , puisque ces probabilités dépendent de , comme référencé ici ou dans la régression logistique appliquée . $Var(Y_j|X_j)=m_j.E[Y_j|X_j].(1-E[Y_j|X_j])=m_j\pi(X_j).(1-\pi(X_j))$ $X_j$

— Stat
source

Stat, Donc, il est correct de dire que la variance pour la ième erreur individuelle, , est (1- ) qui est équivalente à ce que vous avez montré en supposant qu'il y a plus d'une observation dans les données avec la même covariable modèle (autrement dit = 1 pour tout j)?

e_{i}

$e_i$

p_{i}

$p_i$

p_{i}

$p_i$

m_{j}

$m_j$

— B_Miner

Oui, c'est correct. Si avec , alors avec probabilité ou avec probabilité . Par conséquent, a une distribution avec une moyenne de et une variance égale à .

Y_{i} = p_{i} + e_{i}

$Y_i=p_i+e_i$

P (Y_{i} = 1) = 1 - P (Y_{i} = 0) = p_{i}

$P(Y_i=1)=1-P(Y_i=0)=p_i$

e_{i} = 1 - p_{i}

$e_i=1-p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=-p_i$

1 - p_{i}

$1-p_i$

e_{i}

$e_i$

0

$0$

p_{i} (1 - p_{i})

$p_i(1-p_i)$

— Stat

Un point supplémentaire ici, Stat, nous devons supposer que les X sont fixes, non aléatoires pour Var (Y | X) = Var (e) pour les deux cas de régression linéaire et logistique correct?

— B_Miner

NB avec probabilité ou avec probabilité n'est pas une distribution binomiale pour .

e_{i} = 1 - p_{i}

$e_i=1−p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=−p_i$

1 - p_{i}

$1−p_i$

e_{i}

$e_i$

— Scortchi - Réintégrer Monica

B_Miner: signifie la variance de conditionnelle à ce que la variable aléatoire prenne une valeur observée . Peu importe donc que vos prédicteurs soient fixés par une expérience ou observés dans un échantillon: ce que dit @ Stat, c'est qu'ils ne sont plus considérés comme des variables aléatoires aux fins de la régression.

Var (Y | X) = Var (Y | X = x)

$\operatorname{Var}(Y|X)=\operatorname{Var}(Y|X=x)$

Y

$Y$

X

$X$

x

$x$

— Scortchi - Réintégrer Monica