Je doute sérieusement que le fait de centrer ou de normaliser les données d'origine puisse réellement atténuer le problème de multicolinéarité lorsque des termes carrés ou d'autres termes d'interaction sont inclus dans la régression, comme certains d'entre vous, particulièrement les génies, l'ont recommandé ci-dessus.
Pour illustrer mon propos, considérons un exemple simple.
Supposons que la vraie spécification prenne la forme suivante telle que
yi=b0+b1xi+b2x2i+ui
Ainsi, l’équation OLS correspondante est donnée par
yi=yi^+ui^=b0^+b1^xi+b2^x2i+ui^
yi^yiuib0^b2^b0b2zi=x2i
xx2yiyi
Il est assez facile de montrer que la moyenne de est donnée comme suit:
ˉ y = ^ byi
y¯=b0^+b1^x¯+b2^z¯
y¯x¯z¯yixizi
y¯yi
yi−y¯=b1^(xi−x¯)+b2^(zi−z¯)+ui^
yi−y¯xi−x¯zi−z¯b1^b2^
xx2xx2corr(x,z)=corr(x−x¯,z−z¯)
En résumé, si ma compréhension du centrage est correcte, alors je ne pense pas que le centrage des données aiderait à atténuer le problème de MC causé par l'inclusion de termes carrés ou d'autres termes d'ordre supérieur dans la régression.
Je serais heureux d'entendre vos opinions!