Récemment, je me suis intéressé à l'implémentation d'un modèle de régression bêta, pour un résultat proportionnel. Notez que ce résultat ne rentrerait pas dans un contexte binomial, car il n'y a pas de concept significatif de «succès» discret dans ce contexte. En fait, le résultat est en fait une proportion des durées; le numérateur étant le nombre de secondes pendant lesquelles une certaine condition est active sur le nombre total de secondes pendant lesquelles la condition était éligible pour être active. Je m'excuse pour les caprices, mais je ne veux pas trop me concentrer sur ce contexte précis, car je me rends compte qu'il existe une variété de façons dont un tel processus pourrait être modélisé en plus de la régression bêta, et pour l'instant je m'intéresse plus spécifiquement à la théorie les questions qui se sont posées lors de mes tentatives de mise en œuvre d'un tel modèle (bien que je sois
Dans tous les cas, toutes les ressources que j'ai pu trouver ont indiqué que la régression bêta est généralement adaptée à l'aide d'un lien logit (ou probit / cloglog), et les paramètres interprétés comme des changements dans les cotes de journal. Cependant, je n'ai pas encore trouvé de référence qui fournit réellement une vraie justification pour laquelle on voudrait utiliser ce lien.
Le document original de Ferrari et Cribari-Neto (2004) ne fournit aucune justification; ils notent seulement que la fonction logit est "particulièrement utile", en raison de l'interprétation du rapport de cotes des paramètres exponentiels. D'autres sources font allusion à un désir de cartographier de l'intervalle (0,1) à la ligne réelle. Cependant, avons-nous nécessairement besoin d'une fonction de lien pour un tel mappage, étant donné que nous supposons déjà une distribution bêta? Quels avantages la fonction de liaison offre-t-elle au-delà des contraintes imposées en supposant la distribution bêta pour commencer?J'ai exécuté quelques simulations rapides et je n'ai pas vu de prédictions en dehors de l'intervalle (0,1) avec un lien d'identité, même lors de la simulation à partir de distributions bêta dont la masse de probabilité est en grande partie proche de 0 ou 1, mais peut-être mes simulations n'ont pas été assez généraux pour attraper certaines des pathologies.
Il me semble basé sur la façon dont les individus, dans la pratique, interprètent les estimations de paramètres à partir de modèles de régression bêta (c'est-à-dire sous forme de rapports de cotes) qu'ils font implicitement une inférence par rapport aux cotes d'un «succès»; c'est-à-dire qu'ils utilisent la régression bêta comme substitut d'un modèle binomial. Peut-être que cela est approprié dans certains contextes, étant donné la relation entre les distributions bêta et binomiales, mais il me semble que cela devrait être plus un cas spécial que le cas général. Dans cette question, une réponse est fournie pour interpréter le rapport de cotes par rapport à la proportion continue plutôt que le résultat, mais il me semble inutilement lourd d'essayer d'interpréter les choses de cette façon, plutôt que d'utiliser, disons, un journal ou lien d'identité et interprétation des% de changements ou de changements d'unités.
Alors, pourquoi utilisons-nous le lien logit pour les modèles de régression bêta? Est-ce simplement par commodité, pour le relier aux modèles binomiaux?