Quelle est la différence entre la régression bêta et la quasi glm avec variance = ?

Permettez-moi d'abord de donner quelques informations; Je résumerai mes questions à la fin.

La distribution bêta, paramétrée par sa moyenne et , a , où est la fonction de variance. $\mu$ $\phi$ $\operatorname{Var}(Y) = \operatorname{V}(\mu)/(\phi+1)$ $\operatorname{V}(\mu) = \mu(1-\mu)$

Dans une régression bêta (par exemple, en utilisant le package betareg dans R), la régression suppose des erreurs distribuées bêta et estime les effets fixes et la valeur de . $\phi$

En régression glm, il est possible de définir une distribution "quasi" avec une fonction de variance de . Donc, ici, le modèle suppose des erreurs avec la même fonction de variance que Beta. La régression estime ensuite les effets fixes et la "dispersion" de la quasi-distribution. $\mu(1-\mu)$

Il me manque peut-être quelque chose d'important, mais il semblerait que ces deux méthodes soient essentiellement identiques, ne différant peut-être que par leur méthode d'estimation.

J'ai essayé les deux méthodes en R, en régressant sur un DV appelé "Similarité", qui est dans l'intervalle : $(0,1)$

Call:
betareg(formula = Similarity ~ N + NK + Step_ent, data = TapData, link = "logit")

Coefficients (mean model with logit link):
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.715175   0.067805  10.547   <2e-16 ***
N           -0.063806   0.003858 -16.537   <2e-16 ***
NK          -0.362716   0.015008 -24.168   <2e-16 ***
Step_ent    -0.696895   0.070233  -9.923   <2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)  10.6201     0.2084   50.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  3817 on 5 Df
Pseudo R-squared: 0.2633
Number of iterations: 18 (BFGS) + 1 (Fisher scoring) 


Call:
glm(formula = Similarity ~ N + NK + Step_ent, family = quasi(link = "logit", 
variance = "mu(1-mu)"), data = TapData)

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.777451   0.069809  11.137   <2e-16 ***
N           -0.069348   0.003983 -17.411   <2e-16 ***
NK          -0.364702   0.016232 -22.468   <2e-16 ***
Step_ent    -0.704680   0.072491  -9.721   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for quasi family taken to be 0.0838547)

    Null deviance: 566.25  on 4974  degrees of freedom
Residual deviance: 422.76  on 4971  degrees of freedom
AIC: NA

Number of Fisher Scoring iterations: 4

Les coefficients des deux modèles sont similaires, tout comme leurs erreurs standard. Le paramètre est également similaire: je suppose que le paramètre Dispersion (tel que rapporté par glm) et ont la relation suivante , auquel cas ils sont respectivement 10.6201 et 10.9254. . $\phi$ $\phi$ $\phi = 1/\text{Dispersion} - 1$

Cependant, aucune de ces valeurs n'est identique.

Est-ce parce que la seule chose qui diffère réellement dans les deux méthodes est leur procédure d'estimation? Ou y a-t-il une différence plus fondamentale qui me manque? Y a-t-il également une raison de préférer une méthode à l'autre?

— Andrew Milne
source

On dirait que vous avez redécouvert la régression logistique fractionnelle ...

— The Laconic

Vous avez raison de dire que les fonctions de moyenne et de variance sont de la même forme.

Cela suggère que dans de très grands échantillons, tant que vous n'avez pas d'observations très proches de 1 ou 0, ils devraient avoir tendance à donner des réponses assez similaires car dans cette situation, les observations auront des poids relatifs similaires.

Mais dans des échantillons plus petits où certaines des proportions continues approchent des limites, les différences peuvent devenir plus importantes parce que les poids relatifs donnés par les deux approches différeront; si les points qui obtiennent des poids différents sont également relativement influents (plus extrêmes dans l'espace x), les différences peuvent dans certains cas devenir substantielles.

En bêta-régression, vous estimeriez via ML, et dans le cas d'un modèle quasi-binomial - au moins un estimé en R, notez ce commentaire dans l'aide:

Les familles quasibinomiales et quasipoisson ne diffèrent des familles binomiales et poisson que par le fait que le paramètre de dispersion n'est pas fixé à un, de sorte qu'elles peuvent modéliser la sur-dispersion. Pour le cas binomial, voir McCullagh et Nelder (1989, pp. 124–8). Bien qu'ils montrent qu'il existe (sous certaines restrictions) un modèle avec une variance proportionnelle à la moyenne comme dans le modèle quasi binomial, notez que glm ne calcule pas les estimations du maximum de vraisemblance dans ce modèle. Le comportement de S est plus proche des quasi-variantes.

Je pense que dans betareg, vous pouvez obtenir des valeurs , et vous pouvez aussi pour les GLM, donc aux deux modèles ajustés, vous pouvez comparer une approximation de l'influence relative (/ "poids") de chaque observation sur sa propre valeur ajustée (puisque les autres composantes du rapport des influences devraient s'annuler, ou presque). Cela devrait donner une idée rapide des observations qui sont considérées le plus différemment par les deux approches. [On pourrait le faire plus exactement en ajustant réellement les observations une par une et en voyant le changement d'ajustement par unité changer de valeur] $h_{ii}$

Notez que la vignette betareg donne une discussion sur le lien entre ces modèles à la fin de la section 2.

— Glen_b -Reinstate Monica
source

Je suppose que par "échantillons", vous faites référence à des observations de succès et d'échecs? Ma "similitude" DV n'est pas une proportion de succès; c'est la similitude en cosinus ou deux vecteurs de très grande dimension, et est limité entre 0 et 1 sans possibilité de valeur de 0 ou 1. La distribution bêta semble un choix raisonnable pour de telles données. La raison pour laquelle je souhaite transférer vers glm est que je souhaite également ajouter un effet aléatoire, ce qui n'est pas possible dans betareg. J'essaie de savoir si, dans un scénario comme le mien, quasi avec mu (1-mu) est essentiellement le même.

— Andrew Milne

Je veux dire un échantillon au sens statistique ordinaire , mais je ne veux certainement pas dire un échantillon de comptes. Je veux dire un échantillon de valeurs continues entre 0 et 1 (qui sont généralement des proportions pour la régression bêta). Si je parlais de la modélisation des proportions de comptage, je ne parlerais pas des problèmes d'être "proche" de 0 ou 1, je

— parlerais

Merci pour la clarification. Il me manque probablement quelque chose d'évident, mais je ne comprends pas pourquoi la taille de l'échantillon (au sens traditionnel que vous entendez) est pertinente ici, ou pourquoi les valeurs proches de 0 ou 1 seraient traitées différemment dans l'approche bêta contre pseudo glm. Pouvez-vous expliquer un peu?

— Andrew Milne

@Andrew Avec l'augmentation de la taille des échantillons, les log-vraisemblances deviennent plus presque quadratiques près du maximum / les estimations pour ces modèles se rapprochent du gaussien multivarié, et dans ce cas, les moments au second ordre ont tendance à déterminer le comportement. C'est pourquoi avec un grand ils devraient avoir tendance à donner les mêmes réponses. Cependant, les fonctions optimisées diffèrent en fait à la taille d'échantillon fini - avec des différences relatives devenant plus importantes aux extrêmes. Par conséquent, si vous obtenez des observations très proches de 0 ou 1, cela peut faire une différence dans les estimations, en particulier si le n'est pas si grand.

n

$n$

n

$n$

— Glen_b -Reinstate Monica