Quand et comment utiliser des variables explicatives normalisées dans la régression linéaire

J'ai 2 questions simples sur la régression linéaire:

Quand est-il conseillé de normaliser les variables explicatives?
Une fois que l'estimation est réalisée avec des valeurs normalisées, comment peut-on prévoir avec de nouvelles valeurs (comment normaliser les nouvelles valeurs)?

Quelques références seraient utiles.

— teucier
source

Si votre logiciel est bien écrit, il se normalise automatiquement en interne pour éviter les problèmes de précision numérique. Vous ne devriez rien faire de spécial.

— whuber

Notez que le fil de discussion suivant est lié, et sera d’intérêt: Quand devriez-vous centrer vos données et quand devriez-vous normaliser? .

— gung - Rétablir Monica

Notez que les discussions suivantes sont liées et qu'elles présenteront un intérêt: quand devriez-vous centrer vos données et quand devriez-vous normaliser? , & Les variables sont souvent ajustées (par exemple, normalisées) avant de créer un modèle - quand est-ce une bonne idée et quand est-ce une mauvaise? .

— gung - Rétablir Monica

Réponses:

Bien que la terminologie soit un sujet controversé, je préfère appeler les variables "explicatives", les variables "prédictives".

Quand normaliser les prédicteurs:

Un grand nombre de logiciels permettant de réaliser des régressions linéaires multiples fournissent des coefficients normalisés équivalents aux coefficients non normalisés, dans lesquels vous normalisez manuellement les prédicteurs et la variable de réponse (bien entendu, il semble que vous ne parliez que de normaliser les prédicteurs).
Mon opinion est que la normalisation est un outil utile pour rendre les équations de régression plus significatives. Cela est particulièrement vrai dans les cas où la métrique de la variable n'a pas de sens pour la personne interprétant l'équation de régression (par exemple, une échelle psychologique sur une métrique arbitraire). Il peut également être utilisé pour faciliter la comparabilité de l'importance relative des variables prédictives (bien qu'il existe d'autres approches plus sophistiquées pour évaluer l'importance relative; voir mon post pour une discussion ). Dans les cas où la métrique a un sens pour la personne interprétant l'équation de régression, les coefficients non standardisés sont souvent plus informatifs.
Je pense également que le fait de s’appuyer sur des variables standardisées peut détourner l’attention du fait que nous n’avons pas réfléchi à la manière de rendre la métrique d’une variable plus significative pour le lecteur.
Andrew Gelman a beaucoup à dire sur le sujet. Voir sa page sur la normalisation par exemple et Gelman (2008, Stats Med, PDF GRATUIT) en particulier.

Prédiction basée sur la standardisation:

Je n'utiliserais pas de coefficients de régression normalisés pour la prédiction.
Vous pouvez toujours convertir les coefficients normalisés en coefficients non normalisés si vous connaissez la moyenne et l'écart type de la variable prédictive dans l'échantillon d'origine.

— Jeromy Anglim
source

+1, mais pourquoi ne pas utiliser des coefficients de régression non normalisés pour la prédiction?

— onestop

(+1) À propos de l'évaluation de l'importance variable, je pense que le paquetage relaimpo R fait du bon travail (mais voir la section Commencer avec une approche moderne de la régression ). Il y avait aussi un bel article de David V. Budescu sur l'analyse de la dominance (disponible gratuitement sur demande).

— chl

@onestep oups. faute de frappe. C'est changé maintenant.

— Jeromy Anglim

@ Jeromy, pourriez-vous expliquer pourquoi vous n'utiliseriez pas de coefficients de régression normalisés pour la prédiction?

— Michael Bishop

@MichaelBishop Je pense aux contextes dans lesquels vous prenez votre modèle de régression et l'appliquez pour prédire des données hors échantillon. En général, vous voudriez des prédictions non standardisées. De plus, les moyennes et les écarts-types peuvent changer d'un échantillon à l'autre. L’utilisation de prédicteurs non normalisés devrait donc donner des résultats plus significatifs.

— Jeromy Anglim

-4

Permettez-moi de vous répondre par une réponse brève. Cela pourrait se chevaucher avec l'excellente réponse écrite auparavant.

Toujours standardiser, cela vous permet d'interpréter mieux la régression, spécialement les coefficients de la régression.
Pour les nouvelles données qui ne sont pas standardisées, je vous recommande de stocker les valeurs que vous avez utilisées pour chaque variable à normaliser, telles que le maximum et le minimum, puis de faire la même transformation que celle que vous aviez effectuée auparavant dans le jeu de données de trou, mais seulement pour cela. seule instance.

— Mariana Soffer
source