Quelle est la différence entre la régression linéaire et la régression logistique?
Quand utiliseriez-vous chacun?
Quelle est la différence entre la régression linéaire et la régression logistique?
Quand utiliseriez-vous chacun?
Réponses:
La régression linéaire utilise l'équation linéaire générale où est une variable dépendante continue et les variables indépendantes sont généralement continues (mais peuvent aussi être binaires, par exemple lorsque le modèle linéaire est utilisé dans un t- test) ou d’autres domaines discrets. est un terme désignant la variance qui n’est pas expliquée par le modèle et qui s’appelle généralement simplement "erreur". Les valeurs dépendantes individuelles notées peuvent être résolues en modifiant légèrement l'équation:Y X i £ Y j Y j = b 0 + Σ ( b i X i j ) + ε j
La régression logistique est une autre procédure de modèle linéaire généralisé (GLM) utilisant la même formule de base, mais au lieu du continu , elle régresse pour la probabilité d'un résultat catégorique. En termes simples, cela signifie que nous considérons une seule variable de résultat et deux états de cette variable, 0 ou 1.
L'équation de la probabilité de se présente comme suit: P ( Y = 1 ) = 1
Vos variables indépendantes peuvent être continues ou binaires. Les coefficients de régression peuvent être exponentiés pour vous donner le changement de la cote de par changement de , c’est-à-dire que la et . est appelé le rapport de cotes, . En anglais, vous pouvez dire que les probabilités de augmentent d'un facteur par unité de changement dans . Y=1ebiXi
Exemple: si vous souhaitez voir comment l'indice de masse corporelle prédit le cholestérol dans le sang (une mesure continue), vous devez utiliser la régression linéaire comme décrit au début de ma réponse. Si vous voulez voir comment l'IMC prédit la probabilité d'être diabétique (diagnostic binaire), utilisez la régression logistique.
La régression linéaire est utilisée pour établir une relation entre les variables dépendantes et indépendantes, ce qui est utile pour estimer la variable dépendante résultante en cas de changement de variable indépendante de la casse. Par exemple:
En utilisant une régression linéaire, la relation entre Rain (R) et Umbrella Sales (U) s’avère être - U = 2R + 5000
Cette équation dit que pour chaque 1 mm de pluie, il y a une demande de 5002 parapluies. Ainsi, en utilisant la régression simple, vous pouvez estimer la valeur de votre variable.
La régression logistique, en revanche, est utilisée pour déterminer la probabilité d'un événement. Et cet événement est capturé au format binaire, à savoir 0 ou 1.
Exemple - Je veux savoir si un client achètera ou non mon produit. Pour cela, je voudrais exécuter une régression logistique sur les données (pertinentes) et ma variable dépendante serait une variable binaire (1 = oui; 0 = non).
En termes de représentation graphique, la régression linéaire donne une ligne linéaire en sortie, une fois que les valeurs sont tracées sur le graphique. Alors que la régression logistique donne une ligne en forme de S
Référence de Mohit Khurana.
Les différences ont été réglées par DocBuckets et Pardis, mais je souhaite ajouter une façon de comparer leurs performances non mentionnées.
La régression linéaire est généralement résolue en minimisant l'erreur des moindres carrés du modèle par rapport aux données. Par conséquent, les erreurs importantes sont pénalisées quadratiquement. La régression logistique est tout le contraire. L’utilisation de la fonction de perte logistique entraîne la pénalisation d’erreurs importantes à une constante asymptotique.
Envisagez une régression linéaire sur un résultat catégoriel {0,1} pour comprendre pourquoi il s'agit d'un problème. Si votre modèle prédit que le résultat est 38 lorsque la vérité est égale à 1, vous n'avez rien perdu. La régression linéaire essaierait de réduire cette 38, la logistique ne le ferait pas (autant).