Pourquoi Daniel Wilks (2011) dit-il que la régression en composantes principales «sera biaisée»?

Dans Statistical Methods in the Atmospheric Sciences , Daniel Wilks note que la régression linéaire multiple peut entraîner des problèmes s'il existe de très fortes intercorrélations entre les prédicteurs (3e édition, pages 559-560):

Une pathologie qui peut se produire dans une régression linéaire multiple est qu'un ensemble de variables prédictives ayant de fortes corrélations mutuelles peut entraîner le calcul d'une relation de régression instable.

(...)

Il introduit ensuite la régression en composantes principales:

Une approche pour remédier à ce problème consiste à transformer d'abord les prédicteurs en leurs principales composantes, dont les corrélations sont nulles.

Jusqu'ici tout va bien. Mais ensuite, il fait quelques déclarations qu'il n'explique pas (ou du moins pas suffisamment en détail pour que je puisse comprendre):

Si toutes les composantes principales sont conservées dans une régression de composante principale, alors rien n'est gagné sur les moindres carrés conventionnels ajustés à l'ensemble de prédicteurs complet.

(..) et:

Il est possible de réexprimer la régression de la composante principale en termes de prédicteurs d'origine, mais le résultat impliquera en général toutes les variables de prédicteur d'origine même si seulement un ou quelques prédicteurs de composante principale ont été utilisés. Cette régression reconstituée sera biaisée, bien que souvent la variance soit beaucoup plus faible, ce qui se traduira par un MSE global plus petit.

Je ne comprends pas ces deux points.

Bien entendu, si toutes les composantes principales sont conservées, nous utilisons les mêmes informations que lorsque nous utilisions les prédicteurs dans leur espace d'origine. Cependant, le problème des corrélations mutuelles est éliminé en travaillant dans l'espace des composants principaux. Nous avons peut-être encore du sur-ajustement, mais est-ce le seul problème? Pourquoi ne gagne-t-on rien?

Deuxièmement, même si nous tronquons les principales composantes (peut-être pour la réduction du bruit et / ou pour éviter le sur-ajustement), pourquoi et comment cela conduit-il à une régression biaisée reconstituée? Biais de quelle manière?

Source du livre: Daniel S. Wilks, Méthodes statistiques dans les sciences de l'atmosphère, troisième édition, 2011. International Geophysics Series Volume 100, Academic Press.

regression pca bias

— gerrit
source

(+1) Dans la deuxième citation, «sera biaisé» ne suit pas logiquement: mieux serait une déclaration plus douce comme «susceptible d'être biaisée». Je soupçonne que le raisonnement derrière cela pourrait être quelque chose du genre "parce que la PCR impose des relations linéaires entre les estimations des paramètres, ces estimations auront tendance à différer des estimations de l'OLS; et parce que les estimations de l'OLS sont impartiales, cela signifie que les estimations de la PCR seront biaisées". Intuitivement, c'est une bonne heuristique mais ce n'est pas tout à fait correct.

— whuber

pourrait-on dire que "la PCR sera biaisée" si (a) les points de données n'occupent pas une variété dimensionnelle linéaire inférieure ou égale au nombre choisi de PC et (b) les points de données ne sont pas parfaitement décorrélés? ou comment?

— Soren Havelund Welling

Que se passe-t-il lorsque tous les PC sont utilisés?

Si tous les PC sont utilisés, les coefficients de régression résultants seront identiques à ceux obtenus avec la régression OLS, et cette procédure ne devrait donc pas être appelée "régression en composantes principales". Il s'agit d'une régression standard, effectuée uniquement de manière détournée.

$Z$ $Z$ $X$ $X_i$

On ne gagne donc rien.

Que se passe-t-il lorsque seuls quelques PC sont utilisés?

$\hat \beta_\mathrm{PCR}$ $\hat \beta_\mathrm{OLS}$ $\hat \beta$

Ceci est un exemple de compromis biais-variance . Voir Pourquoi le retrait fonctionne-t-il? pour une discussion plus approfondie.

Dans les commentaires, @whuber a souligné que la solution PCR n'ont à différer de celui OLS et donc ne pas avoir à être biaisé. En effet, si la variable dépendante $y$ $y$ $y$

Pourquoi utiliser des PC à variance élevée est une bonne idée?

Cela ne faisait pas partie de la question, mais vous pourriez être intéressé par le fil suivant pour la lecture supplémentaire: Comment les principaux composants principaux peuvent-ils conserver le pouvoir prédictif sur une variable dépendante (ou même conduire à de meilleures prédictions)?

— amibe dit réintégrer Monica
source

Y

$Y$

Y

$Y$

@whuber, en effet. J'ai réécrit ce paragraphe, j'espère qu'il est plus logique maintenant. Merci.

— amibe dit Réintégrer Monica

Hmm, c'est ça. Le biais signifie essentiellement que certains points sont plus égaux que d'autres, c'est exactement ce que nous voulons si nous voulons réduire l'influence du bruit et des valeurs aberrantes (dont je ne suis pas encore sûr si l'ACP est le meilleur outil pour).

— gerrit

@gerrit Vous écrivez comme si le biais équivalait à une pondération, mais ce sont des choses distinctes. Dans ce contexte, le biais fait référence à toute différence entre les valeurs attendues des estimations de coefficient et leurs vraies valeurs.

— whuber

Le modèle suppose que les réponses sont des variables aléatoires. Cela rend les coefficients estimés - en utilisant n'importe quelle procédure - variables aléatoires également. Leurs valeurs attendues sont définies comme pour toute variable aléatoire. Par définition, le biais est la différence entre la valeur attendue et la valeur réelle. Les estimations des coefficients OLS ont des biais de zéro. Le biais d'une autre procédure pourrait toujours être nul. La logique de la citation est qu'une procédure linéaire, comme l'OLS, mais qui impose des relations entre les coefficients, sera nécessairement biaisée. Cette conclusion est vraie dans de nombreux cas, mais pas dans tous.

— whuber