Dans Statistical Methods in the Atmospheric Sciences , Daniel Wilks note que la régression linéaire multiple peut entraîner des problèmes s'il existe de très fortes intercorrélations entre les prédicteurs (3e édition, pages 559-560):
Une pathologie qui peut se produire dans une régression linéaire multiple est qu'un ensemble de variables prédictives ayant de fortes corrélations mutuelles peut entraîner le calcul d'une relation de régression instable.
(...)
Il introduit ensuite la régression en composantes principales:
Une approche pour remédier à ce problème consiste à transformer d'abord les prédicteurs en leurs principales composantes, dont les corrélations sont nulles.
Jusqu'ici tout va bien. Mais ensuite, il fait quelques déclarations qu'il n'explique pas (ou du moins pas suffisamment en détail pour que je puisse comprendre):
Si toutes les composantes principales sont conservées dans une régression de composante principale, alors rien n'est gagné sur les moindres carrés conventionnels ajustés à l'ensemble de prédicteurs complet.
(..) et:
Il est possible de réexprimer la régression de la composante principale en termes de prédicteurs d'origine, mais le résultat impliquera en général toutes les variables de prédicteur d'origine même si seulement un ou quelques prédicteurs de composante principale ont été utilisés. Cette régression reconstituée sera biaisée, bien que souvent la variance soit beaucoup plus faible, ce qui se traduira par un MSE global plus petit.
Je ne comprends pas ces deux points.
Bien entendu, si toutes les composantes principales sont conservées, nous utilisons les mêmes informations que lorsque nous utilisions les prédicteurs dans leur espace d'origine. Cependant, le problème des corrélations mutuelles est éliminé en travaillant dans l'espace des composants principaux. Nous avons peut-être encore du sur-ajustement, mais est-ce le seul problème? Pourquoi ne gagne-t-on rien?
Deuxièmement, même si nous tronquons les principales composantes (peut-être pour la réduction du bruit et / ou pour éviter le sur-ajustement), pourquoi et comment cela conduit-il à une régression biaisée reconstituée? Biais de quelle manière?
Source du livre: Daniel S. Wilks, Méthodes statistiques dans les sciences de l'atmosphère, troisième édition, 2011. International Geophysics Series Volume 100, Academic Press.