Est-il techniquement «valide» d'adapter une régression logistique à une variable dépendante qui est une proportion?


8

Plusieurs articles ( ici et ici ) suggèrent que la régression bêta est plus appropriée lorsque la variable dépendante est naturellement limitée entre 0 et 1. Ma question est, en laissant de côté la pertinence, est-il techniquement incorrect d'adapter une régression logistique à une variable de réponse proportionnelle? R lancera un avertissement mais produira toujours un résultat.

Il me semble que la fonction de vraisemblance ne sera pas une vraisemblance valide lorsque la variable de réponse est proportionnelle au lieu de binaire, mais mathématiquement parlant, elle peut toujours être minimisée pour donner une solution. Je me demande quelle violation / erreur, le cas échéant, est commise lors de l'ajustement d'une régression logistique à des données proportionnelles.


En plus des réponses ci-dessous: Voici un autre article traitant de cette question.
COOLSerdash

Réponses:


8

Ce que vous proposez est parfois appelé un logit fractionnaire. Il a certainement ses mérites, tant que vous vous souvenez d'utiliser des erreurs standard robustes. En 2010, j'ai donné une conférence lors de la réunion des utilisateurs allemands de Stata, comparant entre autres la régression bêta et le logit fractionnaire. Les diapositives sont disponibles ici: http://www.maartenbuis.nl/presentations/berlin10.pdf


(+1) Maarten, une autre question: j'ai lu que le GLM binomial peut être utilisé pour les réponses de fraction / proportion si le nombre total d'essais est fourni pour chaque fraction / proportion (dans R cela se fait avec un weightsargument à glm), voir par exemple ici stats.stackexchange.com/a/26779/28666 . Comment le "logit fractionnaire" avec des "erreurs-types robustes" est-il lié à cette approche? Est-ce la même chose ou pas?
amoeba

2
@amoeba c'est différent. Considérez un logit fractionnaire comme un modèle pour la proportion moyenne, tandis que ce que vous avez proposé comme moyen de récupérer un modèle logit.
Maarten Buis du

6

Les modèles de ce type sont souvent définis et utilisés comme un type de modèle linéaire généralisé. Pour un examen concis, voir http://www.stata-journal.com/article.html?article=st0147 L'argument est que le binôme est une famille raisonnable même pour des proportions continues car la variance se rapprochera également de 0 à mesure que la moyenne approche. soit 0 soit 1.

Que des programmes ou des fonctions particuliers dans un logiciel particulier les prennent en charge est une autre affaire. Dire que «R lancera un avertissement mais produira tout de même un résultat» transmet peu d'informations. De quel paquet parlez-vous? Est-ce vraiment le seul paquet pertinent? En tout cas, comme l'indique l'article qui vient d'être référencé, ce modèle est bien supporté dans Stata, par exemple.

Cela laisse encore place à une discussion détaillée des mérites relatifs d'un modèle logit pour les proportions continues et la régression bêta.


1
+1 sur cette ancienne réponse après la discussion d'aujourd'hui ailleurs. Je vous encourage néanmoins à publier une réponse sur cette approche dans stats.stackexchange.com/questions/29038 .
amoeba

1
Certains commentaires sur la façon dont cela fonctionne dans R sont par exemple dans les commentaires sous cette réponse stats.stackexchange.com/a/43369 dans un fil associé.
amoeba
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.