Régression de Poisson pour estimer le risque relatif pour les résultats binaires

Bref résumé

Pourquoi est-il plus courant d'utiliser la régression logistique (avec rapports de cotes) dans les études de cohortes à résultats binaires, par opposition à la régression de Poisson (avec les risques relatifs)?

Contexte

D'après mon expérience, les statistiques et les cours d'épidémiologie pour les étudiants de premier cycle et les cycles supérieurs enseignent généralement que la régression logistique devrait être utilisée pour modéliser des données avec des résultats binaires, les estimations du risque étant rapportées comme des rapports de cotes.

Cependant, la régression de Poisson (et apparentée: quasi-Poisson, binôme négatif, etc.) peut également être utilisée pour modéliser des données avec des résultats binaires et, avec des méthodes appropriées (par exemple, un estimateur en variance robuste robuste), elle fournit des estimations de risque et des niveaux de confiance valables. Par exemple,

Greenland S., Estimation basée sur un modèle des risques relatifs et d'autres mesures épidémiologiques dans les études sur les résultats communs et les études cas-témoins , Am J Epidemiol. 15 août 2004; 160 (4): 301-5.
Zou G., Une approche de régression de Poisson modifiée pour les études prospectives avec des données binaires , Am J Epidemiol. 1er avril 2004; 159 (7): 702-6.
Zou GY et Donner A., Extension du modèle de régression de Poisson modifié aux études prospectives avec données binaires corrélées , Stat Methods Med Res. 8 novembre 2011

À partir de la régression de Poisson, il est possible d’indiquer les risques relatifs, ce qui, selon certains, est plus facile à interpréter que les rapports de cotes, en particulier pour les résultats fréquents, et en particulier pour les personnes ne disposant pas de connaissances solides en statistiques. Voir Zhang J. et Yu KF, Quel est le risque relatif? Méthode de correction du rapport de cotes dans les études de cohorte portant sur des résultats communs , JAMA. 18 novembre 1998; 280 (19): 1690-1.

À la lecture de la littérature médicale, parmi les études de cohorte ayant des résultats binaires, il semble qu'il soit encore beaucoup plus courant de rapporter les rapports de cotes issus de régressions logistiques plutôt que les risques relatifs découlant de régressions de Poisson.

Des questions

Pour les études de cohorte avec des résultats binaires:

Existe-t-il une bonne raison de déclarer les rapports de cotes issus de régressions logistiques plutôt que les risques relatifs liés aux régressions de Poisson?
Sinon, la rareté des régressions de Poisson avec des risques relatifs dans la littérature médicale peut-elle être attribuée principalement à un décalage entre la théorie et la pratique méthodologiques chez les scientifiques, les cliniciens, les statisticiens et les épidémiologistes?
Les statistiques intermédiaires et les cours d'épidémiologie devraient-ils inclure davantage de discussions sur la régression de Poisson pour les résultats binaires?
Devrais-je encourager les étudiants et leurs collègues à envisager la régression de Poisson sur la régression logistique, le cas échéant?

— jthetzel
source

Si vous voulez un risque relatif, pourquoi ne pas simplement utiliser une régression binomiale avec un lien log (plutôt que logistique)? La relation moyenne-variance de la famille de Poisson n’a pas beaucoup de sens si vous avez conditionné le nombre d’événements possibles par observation.

— Andrew M

@ AndrewM Comment appliquer une régression binomiale avec log link? Des valeurs positives du régresseur impliqueraient des valeurs de probabilité supérieures à 1.

— Rufo

[0, 1]

$[0,1]$

@AndrewM Oui, j'ai mis un prédicteur linéaire, merci :). Mais même lorsque vous parvenez à mettre en œuvre le modèle, je ne suis pas sûr qu'il soit adéquat. Comme je l'indique dans un commentaire de la première réponse, si vous échangez des 0 pour des 1 et inversement pour la variable de réponse, le lien de journal n'étant pas symétrique autour de 0,5, les estimations des risques relatifs sont différentes ( exp(beta_M1) =/= 1/exp(beta_M2)). Cela me dérange un peu.

— Rufo

P (Y | X) / P (Y | X^{c})

$P(Y|X)/P(Y|X^c)$

P (Y | X) / P (Y | X^{c}) \neq P (Y^{c} | X) / P (Y^{c} | X^{c})

$P(Y|X)/P(Y|X^c) \neq P(Y^c|X)/P(Y^c | X^c)$

Réponses:

Une réponse à vos quatre questions, précédée d'une note:

Il n’est pas vraiment courant que les études épidémiologiques modernes rapportent un rapport de cotes tiré d’une régression logistique pour une étude de cohorte. Il reste la technique de régression de choix pour les études cas-témoins, mais des techniques plus sophistiquées sont désormais le standard d'analyse de facto dans les principales revues d'épidémiologie telles que Epidemiology , AJE ou IJE.. Ils auront davantage tendance à apparaître dans des revues cliniques présentant les résultats d'études d'observation. Il y aura également des problèmes, car la régression de Poisson peut être utilisée dans deux contextes: ce à quoi vous faites référence, dans lequel elle remplace un modèle de régression binomiale, et dans un contexte temps-événement, extrêmement courant pour les cohortes. études. Plus de détails dans les réponses aux questions:

Pour une étude de cohorte, pas vraiment non. Il existe des cas extrêmement spécifiques où, disons, un modèle logistique par morceaux a peut-être été utilisé, mais ce sont des valeurs aberrantes. L’ intérêt d’une étude de cohorte est que vous pouvez mesurer directement le risque relatif, ou de nombreuses mesures connexes, sans avoir à vous fier à un rapport de cotes. Je ferai cependant deux remarques: une régression de Poisson consiste à estimer souvent un taux, ce n’est pas un risque, et donc l’effet estimé à partir de celui-ci sera souvent noté comme un rapport de taux (principalement, dans mon esprit, vous pouvez donc toujours le raccourcir RR) ou comme un rapport de densité d’incidence (TRI ou IDR). Assurez-vous donc dans votre recherche que vous recherchez les termes appropriés: de nombreuses études de cohortes utilisent des méthodes d'analyse de la survie. Pour ces études, la régression de Poisson repose sur des hypothèses problématiques, notamment le fait que le risque est constant. En tant que tel, il est beaucoup plus courant d'analyser une étude de cohorte à l'aide de modèles de risques proportionnels de Cox plutôt que de modèles de Poisson et de rapporter le rapport de risque (HR) qui en découle. Si l'on appuie sur le nom d'une méthode "par défaut" permettant d'analyser une cohorte, je dirais que l'épidémiologie est en réalité dominée par le modèle de Cox. Cela a ses propres problèmes et de très bons épidémiologistes voudraient le changer,
Il y a deux choses que je pourrais attribuer à la rareté - une rareté que je ne pense pas nécessairement existe dans la mesure suggérée. La première est que oui - "l'épidémiologie" en tant que domaine n'est pas exactement fermé, et vous obtenez un grand nombre d'articles de cliniciens, de spécialistes des sciences sociales, etc., ainsi que d'épidémiologistes d'horizons statistiques variés. Le modèle logistique est couramment enseigné et, selon mon expérience, de nombreux chercheurs se tourneront vers l'outil habituel plutôt que vers le meilleur outil.

La seconde est en réalité une question de ce que vous entendez par "étude de cohorte". Quelque chose comme le modèle de Cox ou un modèle de Poisson nécessite une estimation réelle du temps-personne. Il est possible de réaliser une étude de cohorte qui suit une population relativement fermée pour une période donnée - en particulier dans les premiers exemples "Intro to Epi", où les méthodes de survie telles que les modèles de Poisson ou de Cox ne sont pas si utiles. Le modèle logistique peutêtre utilisé pour estimer un rapport de cotes qui, avec une prévalence de la maladie suffisamment faible, se rapproche d'un risque relatif. D'autres techniques de régression qui l'estiment directement, comme la régression binomiale, posent des problèmes de convergence qui peuvent facilement faire dérailler un nouvel étudiant. N'oubliez pas que les documents Zou que vous citez utilisent tous les deux une technique de régression de Poisson pour résoudre les problèmes de convergence de la régression binomiale. Mais les études de cohorte adaptées au binôme ne représentent en réalité qu'une petite partie de la "tarte à l'étude de cohorte".
Oui. Franchement, les méthodes d’analyse de survie devraient être présentées plus tôt qu’elles ne le font souvent. Ma théorie des animaux de compagnie est que la raison en est que des méthodes telles que la régression logistique sont plus faciles à coder . Les techniques qui sont plus faciles à coder, mais comportent des avertissements beaucoup plus grands quant à la validité des estimations de leurs effets, sont enseignées comme la norme "de base", ce qui pose problème.
Vous devriez encourager les étudiants et leurs collègues à utiliser l'outil approprié. De manière générale, dans le domaine, je pense que vous feriez probablement mieux de suggérer de prendre en compte le modèle de Cox sur une régression de Poisson, car la plupart des examinateurs (et devraient) rapidement soulever des préoccupations concernant l'hypothèse d'un danger constant. Mais oui, plus vite vous pourrez les écarter de la question "Comment puis-je intégrer ma question à un modèle de régression logistique?" mieux nous serons tous. Mais oui, si vous étudiez une étude sans temps, les étudiants devraient être initiés à la fois à la régression binomiale et à des approches alternatives, comme la régression de Poisson, pouvant être utilisées en cas de problèmes de convergence.

— Fomite
source

Quand vous parlez Autres techniques de régression qui l’estiment directement [le risque relatif, je présume], comme la régression binomiale, ont des problèmes de convergence [...] , comment appliqueriez-vous une régression binomiale pour qu’elle vous donne un risque relatif? @AndrewM suggère un lien de journal, mais je ne vois pas comment vous éviteriez d'avoir des estimations de la probabilité de réussite supérieures à 1.

— Rufo,

@Rufo Un modèle binomial avec un lien de journal, lorsqu'il est exécuté sur une cohorte, estimera le risque relatif. Le fait que ces modèles estiment parfois des probabilités supérieures à 1 est en effet l'une des raisons pour lesquelles les modèles binomiaux sont plus difficiles à mettre en œuvre que ce qui est idéal. Mais j'ai réussi à les utiliser - il est utile que vos données aient souvent des probabilités bien inférieures à 1, de sorte que le modèle peut ne jamais aboutir au problème qui vous inquiète.

— Fomite

p

$p$

Moi aussi, je spécule sur la prévalence des modèles logistiques dans la littérature lorsqu'un modèle de risque relatif serait plus approprié. En tant que statisticiens, nous ne sommes que trop habitués au respect des conventions ou aux analyses de type "menu déroulant". Celles-ci créent beaucoup plus de problèmes qu'elles n'en résolvent. La régression logistique est enseignée comme un "outil standard" pour analyser les résultats binaires, lorsqu'un individu a un type de résultat oui / non comme le décès ou l'invalidité.

La régression de Poisson est souvent enseignée comme méthode d'analyse des comptes . Il est un peu sous-estimé qu'un tel modèle de probabilité fonctionne exceptionnellement bien pour modéliser les résultats 0/1, en particulier lorsqu'ils sont rares. Cependant, un modèle logistique est également bien appliqué avec des résultats rares: l'odds ratio est approximativement un rapport de risque, même avec un échantillonnage dépendant du résultat comme dans les études cas-témoins. On ne peut pas en dire autant des modèles de risque relatif ou de Poisson.

Un modèle de poisson est également utile lorsque certaines personnes peuvent avoir un "résultat" plus d'une fois et que vous pourriez être intéressé par l'incidence cumulative, telle que les épidémies d'herpès, les hospitalisations ou le cancer du sein. Pour cette raison, les coefficients exponentiés peuvent être interprétés comme des taux relatifs . Pour faire la différence entre les taux et les risques: s’il ya 100 cas pour 1 000 années-personnes mais que tous les 100 cas se sont produits chez un individu, l’incidence (taux) est toujours de 1 cas pour 10 personnes-années. Dans un contexte de prestation de soins de santé, vous devez toujours traiter 100 cas et la vaccination de 80% de la population entraîne une réduction du taux d'incidence de 80% (a priori). Cependant, le risque d' au moins un résultat est de 1/1000. La nature du résultat et la question, ensemble, déterminent quel modèle est approprié.

$\mbox{var}(y) = E(y)(1-E(y))$

$\log (E[Y|X])= \beta_0 + \beta_1 X$ $\mbox{var}(Y) = E[Y](1-E[Y])$

En passant, l'article de Zhang fournit une estimation biaisée de l'inférence basée sur l'estimation du risque relatif, qui ne tient pas compte de la variabilité du terme d'interception. Vous pouvez corriger l’estimateur en démarrant.

Pour répondre aux questions spécifiques:

Si le résultat est rare, ils sont approximativement les mêmes. Si le résultat est commun, la variance de l'estimateur du taux relatif de Poisson pourrait être trop gonflée et nous pourrions préférer le rapport de cotes comme une estimation biaisée mais efficace de l'association entre un résultat binaire et plusieurs expositions. Je pense également que les études cas-témoins justifient l’utilisation du rapport de cotes comme mesure qui ne varie pas avec l’échantillonnage en fonction des résultats. Scott et Wild 97 discutent des méthodes autour de cela. Bien entendu, d'autres revues pourraient ne pas avoir de réviseurs de statistiques dédiés.

2.3. Je pense que vous blâmez et présumez exagérément ce qui se passe dans les revues médicales et les universitaires.

Vous devriez toujours encourager vos étudiants à utiliser des modèles appropriés dans la mesure du possible.

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat

— AdamO
source

"D'après ce que je comprends, si l'intérêt scientifique réside dans l'estimation des taux relatifs, il existe un modèle hybride: la régression du risque relatif qui est un GLM utilisant la structure de variance logistique et la structure moyenne de Poisson": aussi appelée régression binomiale avec un log log.

— Andrew M

@ AndrewM En effet. En fait, je pense que c'est la langue préférée. Merci d'avoir fait remarquer cela. J'ai modifié la question pour y inclure une référence à un document de travail de Thomas Lumley qui souligne que le modèle de Poisson est un "modèle de travail" en ce sens qu'il s'agit d'une relation supposée moyenne-variance supposée incorrecte.

— AdamO

Que voulez-vous dire par "si le résultat est rare, ils sont approximativement les mêmes"? Quel est le pourcentage maximum de résultats "rares" pour utiliser OR au lieu de RR pour estimer la prévalence?

— vasili111

@ vasili111 c'est un sujet chaudement débattu sans réponse claire. De nos jours, vous voyez beaucoup de critiques de personnes faisant l'hypothèse "rare" lorsque l'incidence n'était pas si rare, telle que plus de 1/30. Et avec les modèles multivariés, tout est permis!

— AdamO