Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre chose?
Est-ce que je cherche une distribution plus sage pour la variable indépendante en question, ou pour réduire l'effet des valeurs aberrantes, ou autre chose?
Réponses:
J'hésite toujours à me lancer dans une discussion avec autant d'excellentes réponses que cela, mais il me semble que peu de réponses fournissent une raison de préférer le logarithme à une autre transformation qui "écrase" les données, telle qu'une racine ou une réciproque.
Avant d’y arriver, résumons la sagesse des réponses existantes d’une manière plus générale. Une certaine ré-expression non linéaire de la variable dépendante est indiquée lorsque l’un quelconque des cas suivants s’applique:
Les résidus ont une distribution asymétrique. Le but d'une transformation est d'obtenir des résidus approximativement symétriquement répartis (environ zéro, bien sûr).
L'étalement des résidus change systématiquement avec les valeurs de la variable dépendante ("hétéroscédasticité"). Le but de la transformation est de supprimer ce changement systématique de propagation, en obtenant une "homoscédasticité" approximative.
Pour linéariser une relation.
Quand la théorie scientifique indique. Par exemple, la chimie suggère souvent d'exprimer les concentrations en logarithmes (activités ou même le pH bien connu).
Lorsqu'une théorie statistique plus nébuleuse suggère que les résidus représentent des "erreurs aléatoires" qui ne s'accumulent pas de manière additive.
Pour simplifier un modèle. Par exemple, un logarithme peut parfois simplifier le nombre et la complexité des termes "d'interaction".
(Ces indications peuvent être contradictoires; dans de tels cas, un jugement est nécessaire.)
Alors, quand un logarithme est-il spécifiquement indiqué au lieu d’une autre transformation?
Les résidus ont une distribution "fortement" asymétrique positive. Dans son livre sur EDA, John Tukey fournit des méthodes quantitatives pour estimer la transformation (au sein de la famille des transformations de Box-Cox, ou puissance) à partir des statistiques de rangs des résidus. Cela revient vraiment au fait que si le logarithme symétrisait les résidus, c’était probablement la bonne forme de ré-expression; sinon, une autre expression est nécessaire.
Lorsque le SD des résidus est directement proportionnel aux valeurs ajustées (et non à une certaine puissance des valeurs ajustées).
Lorsque la relation est proche de l'exponentielle.
Lorsque les résidus sont censés refléter les erreurs accumulées de manière multiplicative.
Vous voulez vraiment un modèle dans lequel les changements marginaux dans les variables explicatives sont interprétés en termes de changements multiplicatifs (en pourcentage) dans la variable dépendante.
Enfin, certaines non -raisons d'utiliser une nouvelle expression :
Faire que les valeurs aberrantes ne ressemblent pas à des valeurs aberrantes. Une valeur aberrante est une donnée qui ne correspond pas à une description parcimonieuse et relativement simple des données. Changer la description pour améliorer l'apparence des valeurs éloignées est généralement un renversement incorrect des priorités: obtenez d'abord une description scientifiquement valide et statistiquement correcte des données, puis explorez les valeurs aberrantes. Ne laissez pas les valeurs aberrantes occasionnelles déterminer comment décrire le reste des données!
Parce que le logiciel l'a fait automatiquement. (Assez dit!)
Parce que toutes les données sont positives. (La positivité implique souvent une asymétrie positive, mais cela n'est pas obligatoire. En outre, d'autres transformations peuvent fonctionner mieux. Par exemple, une racine fonctionne souvent mieux avec des données comptées.)
Faire en sorte que les "mauvaises" données (peut-être de faible qualité) paraissent bien se comporter.
Pour pouvoir tracer les données. (Si une transformation est nécessaire pour pouvoir tracer les données, elle l'est probablement pour une ou plusieurs des bonnes raisons déjà mentionnées. Si la seule raison de la transformation est vraiment de tracer, continuez et faites-le - mais seulement pour tracer le données. Laissez les données non transformées pour analyse.)
Je dis toujours aux étudiants qu'il y a trois raisons de transformer une variable en prenant le logarithme naturel. La raison de la consignation de la variable déterminera si vous souhaitez consigner la ou les variables indépendantes, dépendantes ou les deux. Pour être clair tout au long je parle de prendre le logarithme naturel.
Tout d'abord, pour améliorer l'ajustement du modèle, comme d'autres afficheurs l'ont noté. Par exemple, si vos résidus ne sont pas distribués normalement, alors prendre le logarithme d'une variable asymétrique peut améliorer l'ajustement en modifiant l'échelle et en rendant la variable plus "normalement" distribuée. Par exemple, les gains sont tronqués à zéro et présentent souvent une asymétrie positive. Si la variable a un biais négatif, vous pouvez d’abord inverser la variable avant de prendre le logarithme. Je pense en particulier aux échelles de Likert qui sont entrées en tant que variables continues. Bien que cela s'applique généralement à la variable dépendante, vous rencontrez parfois des problèmes de résidus (par exemple, l'hétéroscédasticité) causés par une variable indépendante qui peut parfois être corrigée en prenant le logarithme de cette variable. Par exemple, lors de l’exécution d’un modèle qui expliquait les évaluations de conférencier sur un ensemble de covariables de conférencier et de classe, la variable "taille de la classe" (c’est-à-dire le nombre d’étudiants dans l’exposé) présentait des valeurs aberrantes qui induisaient une hétéroscédasticité, car la variance dans les évaluations de cohortes que les cohortes plus petites. Il est utile de consigner la variable de l'étudiant, bien que dans cet exemple, le calcul des erreurs standard robustes ou l'utilisation des moindres carrés pondérés peut faciliter l'interprétation.
Et enfin, il pourrait y avoir une raison théorique à le faire. Par exemple, certains modèles que nous aimerions estimer sont multiplicatifs et donc non linéaires. La prise de logarithmes permet d’estimer ces modèles par régression linéaire. La fonction de production Cobb-Douglas en économie et l’équation Mincer en éducation en sont de bons exemples. La fonction de production Cobb-Douglas explique comment les intrants sont convertis en extrants:
où
En utilisant les logarithmes de cette fonction, il est facile d'estimer la fonction à l'aide de la régression linéaire MCO en tant que telle:
Pour en savoir plus sur l'excellent argument de Whubber concernant les raisons de préférer le logarithme à certaines autres transformations telles qu'une transformation racine ou réciproque, mais en mettant l'accent sur la possibilité d' interprétation unique des coefficients de régression résultant d'une transformation par log par rapport à d'autres transformations, voir:
Oliver N. Keene. La transformation du journal est spéciale. Statistics in Medicine 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de la légalité douteuse disponible sur http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Si vous enregistrez la variable indépendante x à la base b , vous pouvez interpréter le coefficient de régression (et le CI) comme le changement de la variable dépendante y par b multiplié par x . (Les logs en base 2 sont donc souvent utiles car ils correspondent au changement de y par doublement de x , ou les logs en base 10 si x varie sur plusieurs ordres de grandeur, ce qui est plus rare). D'autres transformations, telles que la racine carrée, n'ont pas d'interprétation aussi simple.
Si vous enregistrez la variable dépendante y (pas la question initiale, mais celle que plusieurs des réponses précédentes ont abordée), alors je trouve l'idée de Tim Cole de «sympercents» attrayante pour la présentation des résultats (je les ai même utilisés une fois dans un document), bien qu'ils ne semblent pas avoir attrapé si largement:
Tim J Cole. Sympercents: les différences de pourcentage symétriques sur l’échelle 100 log (e) simplifient la présentation des données transformées par log. Statistiques en médecine 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Je suis tellement heureux que Stat Med ait cessé d'utiliser SICI comme DOI ...]
On prend typiquement le journal d’une variable d’entrée pour l’échelonner et changer la distribution (par exemple, pour la rendre normalement distribuée). Cela ne peut pas être fait aveuglément cependant; vous devez faire attention lorsque vous effectuez une mise à l'échelle pour vous assurer que les résultats sont toujours interprétables.
Ceci est discuté dans la plupart des textes introductifs de statistiques. Vous pouvez également lire le document d’Andrew Gelman sur «Les entrées de régression d’échelle en divisant par deux écarts types» pour une discussion à ce sujet. Il a également eu une très bonne discussion à ce sujet au début de "Analyse des données à l'aide de modèles de régression et hiérarchiques / à plusieurs niveaux" .
Prendre le journal n'est pas une méthode appropriée pour traiter les données erronées / non conformes.
Vous avez tendance à prendre des journaux des données en cas de problème avec les résidus. Par exemple, si vous tracez les résidus par rapport à une covariable particulière et observez un modèle croissant / décroissant (une forme d'entonnoir), une transformation peut alors être appropriée. Les résidus non aléatoires indiquent généralement que les hypothèses de votre modèle sont erronées, c'est-à-dire des données non normales.
Certains types de données se prêtent automatiquement aux transformations logarithmiques. Par exemple, je prends habituellement des bûches pour gérer les concentrations ou l’âge.
Bien que les transformations ne soient pas principalement utilisées pour traiter les valeurs aberrantes, elles sont utiles car la prise de journaux supprime vos données.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Je voudrais répondre à la question de user1690130 qui a été laissée en commentaire à la première réponse du 26 octobre 2012 et qui se lit comme suit: "Qu'en est-il des variables telles que la densité de population dans une région ou le ratio élèves / enseignant pour chaque district scolaire ou le nombre d’homicides pour 1000 dans la population? J’ai vu des professeurs prendre le journal de ces variables. On ne comprend pas pourquoi, par exemple, le taux d’homicides n’est-il pas déjà un pourcentage? Le journal consisterait Pourquoi préférer le log du ratio enseignant / enfant? "
Je cherchais à répondre à un problème similaire et je voulais partager ce que mon ancien manuel de statistiques ( Jeffrey Wooldridge.), Econométrie de base - Une approche moderne, 4ème édition . Wooldridge conseille:
Les variables qui apparaissent sous forme de pourcentage ou de pourcentage, telles que le taux de chômage, le taux de participation à un régime de retraite, le pourcentage d'étudiants ayant réussi un examen standardisé et le taux d'arrestation pour les crimes signalés - peuvent apparaître sous la forme originale ou logarithmique. , bien qu’il y ait une tendance à les utiliser sous forme de niveau . En effet, tous les coefficients de régression impliquant la variable d'origine - qu'il s'agisse de la variable dépendante ou de la variable indépendante - auront une interprétation de changement en points de pourcentage. Si nous utilisons, par exemple, log ( unem ) dans une régression, où unem est le pourcentage de chômeurs, nous devons faire très attention de faire la distinction entre un changement de point de pourcentage et un changement de pourcentage. Rappelez-vous, si unempasse de 8 à 9, il s’agit d’une augmentation d’un point de pourcentage, mais de 12,5% par rapport au niveau de chômage initial. L'utilisation du log signifie que nous examinons la variation en pourcentage du taux de chômage: log (9) - log (8) = 0,118 ou 11,8%, soit l'approximation logarithmique de la hausse réelle de 12,5%.
Sur la base de cela et en se basant sur le commentaire précédent de whuber à la question de user1690130, j’éviterais d’utiliser le logarithme d’une variable de densité ou de pourcentage pour conserver une interprétation simple, à moins que l’utilisation du formulaire log ne crée un compromis important, comme la possibilité de réduire l’asymétrie de la densité. variable de taux.
Shane a déclaré que prendre le journal pour traiter les mauvaises données est bien pris. Comme Colin en ce qui concerne l'importance des résidus normaux. En pratique, je trouve qu’il est généralement possible d’obtenir des résidus normaux si les variables d’entrée et de sortie sont également relativement normales. En pratique, cela signifie regarder la distribution des jeux de données transformés et non transformés, s’assurer qu’ils sont devenus plus normaux et / ou effectuer des tests de normalité (par exemple des tests de Shapiro-Wilk ou de Kolmogorov-Smirnov) et déterminer si le résultat est plus normal. L'interprétation et la tradition sont également importantes. Par exemple, en psychologie cognitive, on utilise souvent les transformations du temps de réaction logarithmiques; toutefois, du moins pour moi, l'interprétation d'un log RT n'est pas claire. En outre,