Je lisais le chapitre sur la régression multiple de l' analyse des données et des graphiques à l'aide de R: une approche basée sur des exemples et j'étais un peu confus de découvrir qu'il recommandait de vérifier les relations linéaires entre les variables explicatives (à l'aide d'un nuage de points) et, au cas où il n'y aurait pas ' t tout, en les transformant afin qu'ils ne deviennent plus linéairement liés. En voici quelques extraits:
6.3 Une stratégie pour ajuster plusieurs modèles de régression
(...)
Examinez la matrice de nuage de points impliquant toutes les variables explicatives. (L'inclusion de la variable dépendante est, à ce stade, facultative. ) Recherchez d'abord des preuves de non-linéarité dans les graphiques des variables explicatives les uns par rapport aux autres.
(...)
Ce point identifie une stratégie de recherche de modèles - recherchez des modèles dans lesquels les relations de régression entre les variables explicatives suivent une forme linéaire "simple" . Ainsi, si certains graphiques par paires montrent des signes de non-linéarité, envisagez d'utiliser des transformations pour donner des relations plus presque linéaires . Bien qu'il ne soit pas nécessairement possible, en suivant cette stratégie, de modéliser adéquatement la relation de régression, il s'agit d'une bonne stratégie, pour les raisons indiquées ci-dessous, à suivre pour commencer la recherche.
(...)
Si les relations entre les variables explicatives sont approximativement linéaires, peut-être après la transformation, il est alors possible d'interpréter les graphiques des variables prédictives par rapport à la variable de réponse avec confiance.
(...)
Il peut ne pas être possible de trouver des transformations d'une ou plusieurs des variables explicatives qui garantissent que les relations (par paires) présentées dans les panneaux apparaissent linéaires. Cela peut créer des problèmes à la fois pour l' interprétation des graphiques de diagnostic pour toute équation de régression ajustée et pour l' interprétation des coefficients dans l'équation ajustée. Voir Cook et Weisberg (1999).
Ne devrais-je pas m'inquiéter des relations linéaires entre les variables dépendantes (en raison du risque de multicollinéarité) au lieu de les rechercher activement? Quels sont les avantages d'avoir des variables approximativement linéairement liées?
Les auteurs abordent la question de la multicolinéarité plus loin dans le chapitre, mais ces recommandations semblent en contradiction avec l'évitement de la multicolinéarité.