Permettez-moi d'abord de donner quelques informations; Je résumerai mes questions à la fin.
La distribution bêta, paramétrée par sa moyenne et , a , où est la fonction de variance.
Dans une régression bêta (par exemple, en utilisant le package betareg dans R), la régression suppose des erreurs distribuées bêta et estime les effets fixes et la valeur de .
En régression glm, il est possible de définir une distribution "quasi" avec une fonction de variance de . Donc, ici, le modèle suppose des erreurs avec la même fonction de variance que Beta. La régression estime ensuite les effets fixes et la "dispersion" de la quasi-distribution.
Il me manque peut-être quelque chose d'important, mais il semblerait que ces deux méthodes soient essentiellement identiques, ne différant peut-être que par leur méthode d'estimation.
J'ai essayé les deux méthodes en R, en régressant sur un DV appelé "Similarité", qui est dans l'intervalle :
Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")
Coefficients (mean model with logit link):
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.715175 0.067805 10.547 <2e-16 ***
N -0.063806 0.003858 -16.537 <2e-16 ***
NK -0.362716 0.015008 -24.168 <2e-16 ***
Step_ent -0.696895 0.070233 -9.923 <2e-16 ***
Phi coefficients (precision model with identity link):
Estimate Std. Error z value Pr(>|z|)
(phi) 10.6201 0.2084 50.96 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Type of estimator: ML (maximum likelihood)
Log-likelihood: 3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring)
Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit",
variance = "mu(1-mu)"), data = TapData)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.777451 0.069809 11.137 <2e-16 ***
N -0.069348 0.003983 -17.411 <2e-16 ***
NK -0.364702 0.016232 -22.468 <2e-16 ***
Step_ent -0.704680 0.072491 -9.721 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for quasi family taken to be 0.0838547)
Null deviance: 566.25 on 4974 degrees of freedom
Residual deviance: 422.76 on 4971 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 4
Les coefficients des deux modèles sont similaires, tout comme leurs erreurs standard. Le paramètre est également similaire: je suppose que le paramètre Dispersion (tel que rapporté par glm) et ont la relation suivante , auquel cas ils sont respectivement 10.6201 et 10.9254. .
Cependant, aucune de ces valeurs n'est identique.
Est-ce parce que la seule chose qui diffère réellement dans les deux méthodes est leur procédure d'estimation? Ou y a-t-il une différence plus fondamentale qui me manque? Y a-t-il également une raison de préférer une méthode à l'autre?