Régression log-linéaire vs régression logistique


21

Quelqu'un peut-il fournir une liste claire des différences entre la régression log-linéaire et la régression logistique? Je comprends que le premier est un modèle de régression linéaire simple, mais je ne sais pas quand chacun doit être utilisé.

Réponses:


19

Le nom est un peu inapproprié. Les modèles log-linéaires étaient traditionnellement utilisés pour l'analyse des données dans un format de tableau de contingence. Alors que les «données de comptage» ne doivent pas nécessairement suivre une distribution de Poisson, le modèle log-linéaire n'est en fait qu'un modèle de régression de Poisson. D'où le nom "log" (les modèles de régression de Poisson contiennent une fonction de lien "log").

Une «variable de résultat transformée logarithmique» dans un modèle de régression linéaire n'est pas un modèle logarithmique (pas plus qu'une variable de résultat exponentiée, comme le suggère «logarithmique»). Les modèles log-linéaires et les régressions logistiques sont des exemples de modèles linéaires généralisés , dans lesquels la relation entre un prédicteur linéaire (comme les log-odds ou log-rate) est linéaire dans les variables du modèle. Ce ne sont pas des "modèles de régression linéaire simples" (ou des modèles utilisant le format habituel ).E[Oui|X]=une+bX

Malgré tout cela, il est possible d'obtenir une inférence équivalente sur les associations entre les variables catégorielles en utilisant la régression logistique et la régression du poisson. C'est juste que dans le modèle poisson, les variables de résultat sont traitées comme des covariables. Fait intéressant, vous pouvez configurer certains modèles qui empruntent des informations entre les groupes d'une manière très similaire à un modèle de cotes proportionnelles, mais cela n'est pas bien compris et rarement utilisé.

Exemples d'obtention d'une inférence équivalente dans les modèles de régression logistique et de poisson à l'aide de R illustrés ci-dessous:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

yX


Encore une fois, cela montre probablement mon inexpérience, mais seriez-vous en mesure de fournir une définition des tableaux de contingence? Cela peut également aider ceux qui rencontrent cette question.
user38133

Les tableaux de contingence sont (généralement) des tableaux bidimensionnels qui énumèrent toutes les réponses possibles de deux variables et montrent la fréquence des observations dans les cellules. Par exemple, vous pourriez avoir un tableau de contingence 2 par 2 montrant le statut tabagique (jamais vs actuel) et le cancer (poumon ca vs pas de cancer) que vous utiliseriez pour estimer l'association entre le tabagisme et le risque de cancer.
AdamO

15

Je ne pense pas que j'appellerais l'un ou l'autre un "modèle de régression linéaire simple". Bien qu'il soit possible d'utiliser le journal ou les transformations logit comme fonction de liaison pour un certain nombre de modèles différents, ceux-ci sont généralement compris comme faisant référence à des modèles spécifiques. Par exemple, la «régression logistique» est considérée comme un modèle linéaire généralisé (GLiM) pour les situations où la variable de réponse est distribuée sous forme de binôme . De plus, la «régression log-linéaire» est généralement comprise comme un GLiM de Poisson appliqué à des tables de contingence multidirectionnelles.. En d'autres termes, au-delà du fait qu'ils sont tous deux des modèles de régression / GLiM, je ne les vois pas nécessairement comme très similaires (il y a des liens entre eux, comme le souligne @AdamO, mais les usages typiques sont assez distincts). La plus grande différence serait que la régression logistique suppose que la réponse est distribuée sous forme binomiale et que la régression log-linéaire suppose que la réponse est distribuée sous forme de Poisson . En fait, la régression log-linéaire est assez différente de la plupart des modèles de régression dans la mesure où la variable de réponse n'est pas vraiment une de vos variables (au sens habituel), mais plutôt l'ensemble des décomptes de fréquence associés aux combinaisons de vos variables dans le tableau de contingence multi-voies.


Merci! Je suppose que ma question de suivi naturelle, qui montre probablement mon manque d'expérience, concerne la façon de déterminer quelle est la bonne distribution pour modéliser un problème donné. Je pense que je devrai faire un peu plus de lecture pour m'assurer que je peux toujours choisir correctement.
user38133

2
{0, 1}

0

Pour clarifier, une régression logistique "binaire" a une variable dépendante avec deux résultats. D'après ce que je comprends, il est également possible d'utiliser une régression logistique «multinomiale» si votre variable de résultat dépendante comporte plus de 2 catégories. Voyez ici .

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.