Les variables de décalage / mise à l'échelle n'affecteront pas leur corrélation avec la réponse
Pour voir pourquoi cela est vrai, supposons que la corrélation entre et soit . Alors la corrélation entre et estX ρ Y ( X - a ) / bOuiXρOui( X- a ) / b
c o v (Y, ( X- a ) / b )S D ((X−a)/b)⋅SD(Y)=cov(Y,X/b)SD(X/b)⋅SD(Y)=1b⋅cov(Y,X)1bSD(X)⋅SD(Y)=ρ
qui découle de la définition de la corrélation et de trois faits:
cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)
cov(Y, un X) = a c o v ( Y, X)
S D (aX) = a ⋅ S D ( X)
Par conséquent, en termes d'ajustement du modèle (par exemple ou les valeurs ajustées), le déplacement ou la mise à l'échelle de vos variables (par exemple en les mettant sur la même échelle) ne changera pas le modèleR2 , car les coefficients de régression linéaire sont liés aux corrélations entre les variables. Cela ne changera l'échelle de vos coefficients de régression , qui doit être gardé à l'esprit lorsque vous interprétez la sortie si vous choisissez de transformer vos prédicteurs.
Edit: Ce qui précède a supposé que vous parlez de régression ordinaire avec l'interception. Quelques points supplémentaires à ce sujet (merci @cardinal):
L'interception peut changer lorsque vous transformez vos variables et, comme le souligne @cardinal dans les commentaires, les coefficients changeront lorsque vous déplacerez vos variables si vous omettez l'interception du modèle, bien que je suppose que vous ne le faites pas à moins que vous n'ayez une bonne raison (voir par exemple cette réponse ).
Si vous régularisez vos coefficients d'une manière ou d'une autre (par exemple, Lasso, régression de crête), le centrage / la mise à l'échelle affectera l'ajustement. Par exemple, si vous pénalisez (la pénalité de régression de crête), vous ne pouvez pas récupérer un ajustement équivalent après la normalisation, sauf si toutes les variables étaient à la même échelle en premier lieu, c'est-à-dire qu'il n'y a pas de multiple constant qui récupérer la même pénalité.∑ β2je
Concernant quand / pourquoi un chercheur peut vouloir transformer les prédicteurs
Une circonstance courante (discutée dans la réponse suivante de @Paul) est que les chercheurs normaliseront leurs prédicteurs afin que tous les coefficients soient à la même échelle. Dans ce cas, la taille des estimations ponctuelles peut donner une idée approximative des prédicteurs qui ont le plus grand effet une fois que l'amplitude numérique du prédicteur a été normalisée.
Une autre raison pour laquelle un chercheur peut souhaiter mettre à l'échelle de très grandes variables est que les coefficients de régression ne sont pas à une échelle extrêmement petite. Par exemple, si vous vouliez examiner l'influence de la taille de la population d'un pays sur le taux de criminalité (ne pouvait pas penser à un meilleur exemple), vous pourriez vouloir mesurer la taille de la population en millions plutôt qu'en unités d'origine, puisque le coefficient peut être quelque chose comme ..00000001