Les décalages peuvent être utilisés dans n'importe quel modèle de régression, mais ils sont beaucoup plus courants lorsque vous travaillez avec des données de comptage pour votre variable de réponse. Un décalage n'est qu'une variable qui est forcée d'avoir un coefficient de 1 dans le modèle. (Voir aussi cet excellent thread CV: Quand utiliser un décalage dans une régression de Poisson? )
Lorsqu'il est utilisé correctement avec les données de comptage, cela vous permettra de modéliser les taux au lieu des comptages . Si cela vous intéresse, alors c'est quelque chose à faire. Il s'agit donc du contexte dans lequel les compensations sont utilisées le plus fréquemment. Prenons un GLiM de Poisson avec un lien log (qui est le lien canonique).
ln(λ)ln(λtime)ln(λ)−ln(time)ln(λ)ln(λ)=β0+β1X=β0+β1X⇒=β0+β1X=β0+β1X+1×ln(time)≠=β0+β1X+β2×ln(time)when β2≠1(counts)(rates)(still rates)(counts again)
(Comme vous pouvez le voir, la clé pour utiliser un décalage correctement est de faire le décalage, pas t i m e .) ln(time)t i m e
Lorsque le coefficient sur n'est pas 1 , vous ne modélisez plus les taux. Mais comme β 2 ∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ ) offre une flexibilité beaucoup plus grande pour ajuster les données, les modèles qui n'utilisent pas ln ( t i m e ) comme décalage s'adapteront généralement mieux (bien qu'ils puissent aussi overfit). ln( t i m e )1β2∈ ( - ∞ , 1 ) ∪ ( 1 , ∞ )ln( t i m e )
La question de savoir si vous devez modéliser le nombre ou les taux dépend vraiment de votre question de fond. Vous devez modéliser celui qui correspond à ce que vous voulez savoir.
En ce qui concerne ce que cela pourrait signifier pour que ne soit pas 1 , considérons un exemple où le temps n'est pas la variable en question. Imaginez étudier le nombre de complications chirurgicales dans différents hôpitaux. Un hôpital a signalé beaucoup plus de complications chirurgicales, mais ils pourraient prétendre que la comparaison n'est pas juste car ils font beaucoup plus de chirurgies. Vous décidez donc d'essayer de contrôler cela. Vous pouvez simplement utiliser le journal du nombre de chirurgies comme décalage, ce qui vous permettrait d'étudier le taux de complications par chirurgie. Vous pouvez également utiliser le journal du nombre de chirurgies comme une autre covariable. Disons que le coefficient est significativement différent de 1 . Si β 2 > 1β211β2> 1, alors les hôpitaux qui font plus de chirurgies ont un taux de complications plus élevé (peut-être parce qu'ils se précipitent pour faire plus). Si , les hôpitaux qui en font le plus ont moins de complications par chirurgie (peut-être ont-ils les meilleurs médecins, font-en plus et font-ils mieux). β2< 1
Voir comment cela pourrait se produire si la variable en question était le temps est un peu plus compliqué. La distribution de Poisson provient du processus de Poisson , dans lequel le temps entre les événements est distribué de façon exponentielle, et il existe donc un lien naturel avec l'analyse de survie. Dans l'analyse de la survie, le temps avant les événements n'est souvent pas distribué comme une exponentielle, mais le risque de base peut devenir plus ou moins grand avec le temps. Considérez donc un cas où vous modélisez le nombre d'événements qui se produisent à la suite d'un point de départ naturel. Si , cela signifie que le rythme des événements s'accélère, alors que si β 2 < 1β2> 1β2< 1, cela signifie que le rythme des événements ralentit.
Pour un exemple concret de la première, imaginez un scan qui compte le nombre de cellules cancéreuses une période de temps après l'ablation chirurgicale de la tumeur initiale. Pour certains patients, plus de temps s'est écoulé depuis la chirurgie et vous vouliez en tenir compte. Puisqu'une fois qu'un cancer a repris pied, il commencera à croître de façon exponentielle, le taux augmentera au fil du temps depuis la chirurgie sans traitement supplémentaire.
Pour un exemple concret de ce dernier, considérons le nombre de personnes décédées d'une épidémie pour laquelle nous n'avons aucun traitement. Au début, beaucoup de gens meurent parce qu'ils étaient plus sensibles à cette maladie, ou avaient déjà un système immunitaire affaibli, etc. Au fil du temps, comme la population de personnes restantes est moins sensible à la maladie, le taux diminuera. (Désolé, cet exemple est si morbide.)