Quelle est la différence entre la régression linéaire et la régression logistique?

122

Quand utiliseriez-vous chacun?

regression logistic linear-model

— B Seven
source

Dans le modèle de régression linéaire, la variable dépendante est considérée comme continue, tandis que dans la régression logistique, elle est catégorique, c'est-à-dire discrète. En application, le premier est utilisé dans les paramètres de régression tandis que le second est utilisé pour la classification binaire ou la classification multi-classes (où il est appelé régression logistique multinomiale).

y

$y$

— Pardis

Bien que cela soit écrit dans un contexte différent, vous pouvez lire ma réponse ici: Différence entre les modèles logit et probit , qui contient de nombreuses informations sur les évolutions de la régression logistique susceptibles de vous aider à mieux les comprendre.

— gung

Toutes les réponses précédentes sont exactes, mais il y a des raisons pour lesquelles vous pourriez être en faveur d'un modèle de régression linéaire, même si votre résultat est une dichotomie. J'ai écrit sur ces raisons ici: statisticshorizons.com/linear-vs-logistic

— Paul von Hippel

Réponses:

111

La régression linéaire utilise l'équation linéaire générale où est une variable dépendante continue et les variables indépendantes sont généralement continues (mais peuvent aussi être binaires, par exemple lorsque le modèle linéaire est utilisé dans un t- test) ou d’autres domaines discrets. est un terme désignant la variance qui n’est pas expliquée par le modèle et qui s’appelle généralement simplement "erreur". Les valeurs dépendantes individuelles notées peuvent être résolues en modifiant légèrement l'équation: $Y=b_0+∑(b_i X_i)+\epsilon$ $Y$ $X_i$ $\epsilon$ $Y_j$ $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

La régression logistique est une autre procédure de modèle linéaire généralisé (GLM) utilisant la même formule de base, mais au lieu du continu , elle régresse pour la probabilité d'un résultat catégorique. En termes simples, cela signifie que nous considérons une seule variable de résultat et deux états de cette variable, 0 ou 1. $Y$

L'équation de la probabilité de se présente comme suit: $Y=1$

P (Y = 1) = \frac{1}{1 + e^{- (b_{0} + \sum (b_{i} X_{i}))}}

$P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}}$

Vos variables indépendantes peuvent être continues ou binaires. Les coefficients de régression peuvent être exponentiés pour vous donner le changement de la cote de par changement de , c’est-à-dire que la et . est appelé le rapport de cotes, . En anglais, vous pouvez dire que les probabilités de augmentent d'un facteur par unité de changement dans . $X_i$ $b_i$ $Y$ $X_i$ $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ ${\Delta Odds}= e^{b_i}$ $\Delta Odds$ $Odds(X_i+1)\over Odds(X_i)$ $Y=1$ $e^{b_i}$ $X_i$

Exemple: si vous souhaitez voir comment l'indice de masse corporelle prédit le cholestérol dans le sang (une mesure continue), vous devez utiliser la régression linéaire comme décrit au début de ma réponse. Si vous voulez voir comment l'IMC prédit la probabilité d'être diabétique (diagnostic binaire), utilisez la régression logistique.

— DocBuckets
source

Cela semble être une bonne réponse, mais pourriez-vous expliquer ce que représentent les et, en particulier, pourquoi les inclure dans les sommations? (Qu'est-ce qu'on résume de toute façon?)

ϵ_{i}

$\epsilon_i$

— whuber

Il me semble que Bill avait l'intention d'écrire, c'est-à-dire (c'est une abréviation latine) plutôt que e

— Michael Chernick,

Mais le εi dans la somme de l'exposant ne devrait pas être là. Il semble que le terme de bruit dans le modèle y ait été accidentellement transporté. La seule addition doit être sur le bis qui représente les coefficients p pour les covariables p.

— Michael Chernick

Il y a une erreur dans votre expression pour . Vous devriez avoir pas Le caractère aléatoire dans un modèle de régression logistique provient du fait qu'il s'agit d'essais bernoulli, et non pas d'erreurs dans les probabilités de réussite (c vous l'avez écrit).

P (Y = 1)

$P(Y=1)$

P (Y = 1) = \frac{1}{1 + \exp {- X β}},

$P(Y=1) = \frac{1}{1 + \exp \{-X \boldsymbol{\beta} \} },$

P (Y = 1) = \frac{1}{1 + \exp {- (X β + ε)}}

$P(Y=1) = \frac{1}{1 + \exp \{ -(X \boldsymbol{\beta}+\varepsilon) \} }$

— Macro

La régression logistique @samthebrand n’est pas binaire en soi. Il peut être utilisé pour modéliser des données avec une réponse binaire via des probabilités comprises entre 0 et 1. Vous allez bouger sans vergogne mon billet de blog sur ce qui devrait effacer votre confusion.

— Ben

La régression linéaire est utilisée pour établir une relation entre les variables dépendantes et indépendantes, ce qui est utile pour estimer la variable dépendante résultante en cas de changement de variable indépendante de la casse. Par exemple:

En utilisant une régression linéaire, la relation entre Rain (R) et Umbrella Sales (U) s’avère être - U = 2R + 5000

Cette équation dit que pour chaque 1 mm de pluie, il y a une demande de 5002 parapluies. Ainsi, en utilisant la régression simple, vous pouvez estimer la valeur de votre variable.

La régression logistique, en revanche, est utilisée pour déterminer la probabilité d'un événement. Et cet événement est capturé au format binaire, à savoir 0 ou 1.

Exemple - Je veux savoir si un client achètera ou non mon produit. Pour cela, je voudrais exécuter une régression logistique sur les données (pertinentes) et ma variable dépendante serait une variable binaire (1 = oui; 0 = non).

En termes de représentation graphique, la régression linéaire donne une ligne linéaire en sortie, une fois que les valeurs sont tracées sur le graphique. Alors que la régression logistique donne une ligne en forme de S

Référence de Mohit Khurana.

— Vijay Ram
source

Re: "La régression linéaire est utilisée pour établir une relation entre les variables dépendantes et indépendantes" - ceci est également vrai pour la régression logistique - la variable dépendante est simplement binaire.

— Macro

La régression logistique ne sert pas uniquement à prédire un événement binaire ( classes). Il peut être généralisé à classes (régression logistique multinomiale)

2

$2$

k

$k$

— tgy

Les différences ont été réglées par DocBuckets et Pardis, mais je souhaite ajouter une façon de comparer leurs performances non mentionnées.

La régression linéaire est généralement résolue en minimisant l'erreur des moindres carrés du modèle par rapport aux données. Par conséquent, les erreurs importantes sont pénalisées quadratiquement. La régression logistique est tout le contraire. L’utilisation de la fonction de perte logistique entraîne la pénalisation d’erreurs importantes à une constante asymptotique.

Envisagez une régression linéaire sur un résultat catégoriel {0,1} pour comprendre pourquoi il s'agit d'un problème. Si votre modèle prédit que le résultat est 38 lorsque la vérité est égale à 1, vous n'avez rien perdu. La régression linéaire essaierait de réduire cette 38, la logistique ne le ferait pas (autant).

— J. Abrahamson
source

Si donc, les situations / cas qui sont pénalisés dans une logistique, c.-à-d., Dans quels cas aurions-nous un ajustement médiocre?

— MSIS

Tout le contraire: chaque fois que des écarts plus importants par rapport à l’ajustement entraînent des résultats pires. Par exemple, la régression logistique vous empêche de frapper un jeu de fléchettes, mais ne permet pas de donner l’air beau. Ou, de la même manière, pense qu'un quasi-échec du tableau équivaut à rester collé à son voisin.

— J. Abrahamson

Très bonne réponse. A-t-on effectué des recherches pour déterminer si cela nuisait aux performances du modèle? Je veux dire si une régression linéaire était utilisée pour prédire la réponse = {0,1} au lieu d’une régression logistique.

— Tagar