Je prends actuellement mon premier cours de régression linéaire appliquée au niveau universitaire et je me débat avec des transformations de variables prédictives en régression linéaire multiple. Le texte que j'utilise, Kutner et al "Modèles statistiques linéaires appliqués" ne semble pas couvrir la question que j'ai. (à part suggérer qu'il existe une méthode de Box-Cox pour transformer plusieurs prédicteurs).
Face à une variable de réponse et à plusieurs variables prédictives, quelles conditions s'efforce-t-on de respecter avec chaque variable prédictive? Je comprends que nous recherchons en fin de compte la constance de la variance des erreurs et des erreurs normalement distribuées (au moins dans les techniques que j'ai apprises jusqu'à présent.) J'ai eu de nombreux exercices de retour, où la solution était, par exemple y ~ x1 + (1/x2) + log(x3)
, où un ou plusieurs prédicteurs ont été transformés.
J'ai compris le raisonnement sous une régression linéaire simple, car il était facile de regarder y ~ x1 et les diagnostics associés (qq tracés de résidus, résidus vs y, résidus vs x, etc.) et de tester pour voir si y ~ log ( x1) correspondent mieux à nos hypothèses.
Y a-t-il un bon endroit pour commencer à comprendre quand transformer un prédicteur en présence de nombreux prédicteurs?
Merci d'avance. Mat