Régression: Transformer les variables


41

Lorsque vous transformez des variables, devez-vous utiliser la même transformation? Par exemple, puis-je choisir et choisir des variables transformées différemment, comme dans:

Soit, l'âge, la durée de l'emploi, la durée de résidence et le revenu.x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Ou devez-vous être cohérent avec vos transformations et utiliser tout de même? Un péché:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Je crois comprendre que le but de la transformation est de résoudre le problème de la normalité. En examinant les histogrammes de chaque variable, nous pouvons constater qu'ils présentent des distributions très différentes, ce qui me porte à croire que les transformations requises sont différentes, variable par variable.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

texte alternatif

Enfin, quelle est la validité de la transformation de variables à l'aide de où a valeur? Cette transformation doit-elle être cohérente pour toutes les variables ou est-elle utilisée ad hoc même pour les variables qui n'incluent pas des ?x n 0 0log(xn+1)xn00

## R Code 
plot(df[1:7])

texte alternatif

Réponses:


59

On transforme la variable dépendante pour obtenir une symétrie et une homoscédasticité approximatives des résidus . Les transformations des variables indépendantes ont un objectif différent: après tout, dans cette régression, toutes les valeurs indépendantes sont considérées comme fixes, et non aléatoires, de sorte que la "normalité" est inapplicable. L'objectif principal de ces transformations est d'établir des relations linéaires avec la variable dépendante (ou, en réalité, avec son logit). (Cet objectif remplace les objectifs auxiliaires tels que la réduction de l’ effet de levier excessif.ou obtenir une interprétation simple des coefficients.) Ces relations sont une propriété des données et des phénomènes qui les ont produites. Vous devez donc disposer de la souplesse nécessaire pour choisir les expressions appropriées de chaque variable séparément des autres. Concrètement, non seulement l'utilisation d'un journal, d'une racine et d'une réciproque n'est pas un problème, c'est plutôt courant. Le principe est qu'il n'y a (généralement) rien de spécial sur la façon dont les données sont exprimées à l'origine. Vous devriez donc laisser les données suggérer des expressions qui conduisent à des modèles efficaces, précis, utiles et (si possible) justifiés sur le plan théorique.

Les histogrammes - qui reflètent les distributions univariées - font souvent allusion à une transformation initiale, mais ne sont pas déterminants. Accompagnez-les de matrices de diagrammes de dispersion pour pouvoir examiner les relations entre toutes les variables.


log(x+c)cxlog(x)xzxxx=0et est 0 sinon. Ces termes contribuent une somme

βbûche(X)+β0zX

X>0zX=0βbûche(X)X=0bûche(X)zX=1β0β0X=0βbûche(X)


1
Description très utile, merci pour la direction et les détails de ma sous-question aussi.
Brandon Bertelsen

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002) recommande d'ancrer la valeur minimale dans une distribution à exactement 1.0. pareonline.net/getvn.asp?v=8&n=6
Chris

1
11

1
Dans l'un des jeux de données sur lequel je travaille, j'ai remarqué que si je changeais la variable de réponse dépendante pour ancrer à 1 et utilisais une transformation case à cox pour éliminer le biais, la transformation résultante était affaiblie, ce qui conduisait à votre critique. ;)
Chris

1
β0zX
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.