Interprétation du prédicteur et / ou de la réponse transformé par log


46

Je me demande si cela fait une différence d'interprétation si seules les variables dépendantes, indépendantes et dépendantes, ou uniquement les variables indépendantes sont transformées par un journal.

Considérons le cas de

log(DV) = Intercept + B1*IV + Error 

Je peux interpréter l'IV comme l'augmentation en pourcentage, mais comment cela change-t-il quand j'ai

log(DV) = Intercept + B1*log(IV) + Error

ou quand j'ai

DV = Intercept + B1*log(IV) + Error

?


1
J'ai l'impression que l'interprétation du «pourcentage d'augmentation» n'est pas correcte, mais je n'ai pas assez de précision pour dire pourquoi exactement. J'espère que quelqu'un pourra vous aider ... Au-delà de cela, je vous recommanderais de modéliser à l' aide de journaux si elles permettent de mieux établir une relation XY, mais en rapportant des exemples choisis de cette relation à l'aide des variables d'origine. Surtout s'il s'agit d'un public qui n'est pas trop avisé sur le plan technique.
rolando2

3
@ rolando2: je ne suis pas d'accord. Si un modèle valide nécessite une transformation, une interprétation valide reposera généralement sur les coefficients du modèle transformé. Il incombe à l’enquêteur de communiquer de manière appropriée la signification de ces coefficients à l’audience. C’est bien sûr pour cela que nous sommes payés tellement que les salaires doivent être transformés au plus tôt.
Jthetzel

1
@BigBucks: Eh bien, regardez comme ça. Supposons que votre public ne comprenne tout simplement pas ce que vous voulez dire lorsque vous expliquez que pour chaque changement de 1 dans le journal (base 10) de X, Y changera de b. Mais supposons qu'ils puissent comprendre 3 exemples en utilisant les valeurs X de 10, 100 et 1000. À ce stade, ils comprendront probablement la nature non linéaire de la relation. Vous pouvez toujours signaler le b global basé sur un journal, mais donner ces exemples pourrait faire toute la différence.
rolando2

1
.... Bien que, maintenant que j'ai lu votre excellente explication ci-dessous, utiliser ces "modèles" pourrait peut-être aider beaucoup d'entre nous à résoudre ce genre de problèmes de compréhension.
rolando2

Réponses:


43

Charlie fournit une explication correcte et correcte. Le site d'informatique statistique de l'UCLA contient d'autres exemples: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm et http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Pour compléter la réponse de Charlie, vous trouverez ci-dessous des interprétations spécifiques de vos exemples. Comme toujours, les interprétations des coefficients supposent que vous pouvez défendre votre modèle, que les diagnostics de régression sont satisfaisants et que les données proviennent d’une étude valide.

Exemple A : Pas de transformation

DV = Intercept + B1 * IV + Error 

"Une unité d'augmentation de IV est associée à une B1augmentation de ( ) unité de DV."

Exemple B : résultat transformé

log(DV) = Intercept + B1 * IV + Error 

"Une unité d'augmentation de la IV est associée à une B1 * 100augmentation de ( ) pour cent de la DV."

Exemple C : exposition transformée

DV = Intercept + B1 * log(IV) + Error 

"Une augmentation de 1% de la IV est associée à une B1 / 100augmentation de ( ) unité de la DV."

Exemple D : résultat transformé et exposition transformée

log(DV) = Intercept + B1 * log(IV) + Error 

"Une augmentation de 1% de la IV est associée à une B1augmentation de ( )% de la DV."


1
Ces interprétations sont-elles valables quelle que soit la base du logarithme?
Ayalew A.

Exemple B: Journal de résultat transformé (DV) = Interception + B1 * IV + Erreur "Une unité d'augmentation de la IV est associée à une augmentation de (B1 * 100)% de DV. Dans ce cas, comment procéder si vous voulez 30% de Réduction DV? Merci pour votre réponse
Antouria

Ainsi, un journal DV ~ B1 * (IV) est un bon modèle pour la variable dépendante continue à borne zéro?
Bakaburg

3
Je peux être confus. Si vous vous connectez au résultat, vous devez re-exposer le coefficient pour trouver la différence multiplicative. L'interprétation sur l'échelle logarithmique ne fonctionne comme une approximation que lorsque le rapport est très proche de 1.
AdamO

Les liens sont cassés.
Nick Cox

22

Dans le modèle log-log, voyez que Rappelez-le ou multipliant cette dernière formulation par 100, on obtient le pourcentage de variation de . Nous avons des résultats analogues pour .

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

En utilisant ce fait, nous pouvons interpréter comme le pourcentage de changement de pour un changement de 1% de .β1yx

En suivant la même logique, pour le modèle de niveau-log, nous avons

β1=ylog(x)=100y100×log(x).
ou est le changement d'unité en pour un changement de un pour cent en .β1/100yx

Je n'ai jamais compris cela. Ce doit être simple mais je ne l’ai jamais vu ... Qu’est-ce exactement et comment allez-vous passer d’un pourcentage à l’autre?
log(y)=yy?
B_Miner

1
La ligne ne prend que la dérivée de par rapport à et multiplie les deux côtés par . Nous avons . Cette fraction est alors le changement de divisé par . Multiplié par 100, il s'agit du pourcentage de variation de . log(y)yyyy1y0yyy
Charlie

7

L'objectif principal de la régression linéaire est d'estimer la différence moyenne entre les résultats comparant les niveaux adjacents d'un régresseur. Il existe plusieurs types de moyens. Nous sommes plus familiers avec la moyenne arithmétique.

AM(X)=(X1+X2++Xn)n

Le MA est ce qui est estimé à l'aide de MCO et de variables non transformées. La moyenne géométrique est différente:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

entrez la description de l'image ici

Pratiquement une différence GM est une différence multiplicative: vous payez X% de la prime en intérêts lorsque vous prenez un prêt, votre taux d'hémoglobine diminue de X% après le début du traitement à la metformine, le taux d'échec des ressorts augmente de X% en fraction de la largeur. Dans tous ces cas, une différence moyenne brute a moins de sens.

La transformation du journal estime une différence de moyenne géométrique. Si vous vous connectez transformer un résultat et modèle dans une régression linéaire en utilisant la spécification de formule suivante: log(y) ~ x, le coefficient est une différence moyenne du résultat journal comparant les unités adjacentes de . Ceci est pratiquement inutile, donc nous exponencions le paramètre et interprétons cette valeur comme une différence de moyenne géométrique. X e β 1β1Xeβ1

Par exemple, dans une étude de la charge virale en VIH après 10 semaines d'administration d'un traitement antirétroviral, nous pourrions estimer la moyenne géométrique avant de . Cela signifie que quelle que soit la charge virale au départ, elle était en moyenne inférieure de 60% ou elle était 0,6 fois inférieure au suivi. Si la charge était de 10 000 au départ, mon modèle prédirait 4 000 au suivi, si elle était de 1 000 au départ, mon modèle prédisait 400 au suivi (une différence plus petite sur l’échelle brute, mais proportionnellement les mêmes).eβ1=0.40

C'est une distinction importante par rapport aux autres réponses : la convention de multiplier le coefficient de log-scale par 100 provient de l'approximation lorsque est petit. Si le coefficient (sur l'échelle logarithmique) est dire 0,05, puis et l'interprétation est: une « augmentation » du résultat pour une unité 1 « augmentation » de 5% . Cependant, si le coefficient est de 0,5 alors et on interprète cela comme un 65% « augmentation » en pour une unité 1 « augmentation » en . Ce n'est pas une augmentation de 50%.X exp ( 0,05 ) 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

Supposons que nous enregistrons transformer un facteur prédictif: y ~ log(x, base=2). Ici, je suis intéressé par un changement multiplicatif de plutôt que par une différence brute. Je suis maintenant intéressé à comparer différents participants par 2 fois dans . Supposons, par exemple, que je suis intéressé par la mesure de l'infection (oui / non) à la suite d'une exposition à un agent pathogène transmissible par le sang à différentes concentrations à l'aide d'un modèle de risque additif. Le modèle biologique peut suggérer que le risque augmente proportionnellement pour chaque doublement de la concentration. Ensuite, je ne transforme pas mes résultats, mais le coefficient estimé est interprété comme une différence de risque comparant les groupes exposés à une différence de concentration deux fois supérieure de matériel infectieux.X β 1xXβ1

Enfin, les log(y) ~ log(x)auteurs appliquent simplement les deux définitions pour obtenir une différence multiplicative comparant des groupes différant de manière multiplicative en termes de niveaux d’exposition.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.