La section 3.5.2 dans Les éléments de l'apprentissage statistique est utile car elle place la régression PLS dans le bon contexte (d'autres méthodes de régularisation), mais elle est en effet très brève et laisse quelques déclarations importantes comme exercices. De plus, il considère uniquement le cas d'une variable dépendante univariée y .
La littérature sur PLS est vaste, mais peut être assez déroutante car il existe de nombreuses "saveurs" différentes de PLS: versions univariées avec un seul DV y (PLS1) et versions multivariées avec plusieurs DVs Y (PLS2), versions symétriques traiter X et Y manière égale et les versions asymétriques ("régression PLS") traiter X comme indépendant et Y comme variables dépendantes, versions qui permettent une solution globale via SVD et versions qui nécessitent des déflations itératives pour produire chaque prochaine paire de directions PLS, etc. etc.
Tout cela a été développé dans le domaine de la chimiométrie et reste quelque peu déconnecté de la littérature statistique ou d'apprentissage machine «grand public».
Le document de synthèse que je trouve le plus utile (et qui contient de nombreuses autres références) est le suivant:
Pour une discussion plus théorique, je peux en outre recommander:
Une courte introduction sur la régression PLS avec univarié (aka PLS1, aka SIMPLS)y
Le but de la régression est d'estimer dans un modèle linéaire . La solution OLS bénéficie de nombreuses propriétés d'optimalité mais peut souffrir d'un sur-ajustement. En effet, OLS recherche qui produit la corrélation la plus élevée possible de avec . S'il y a beaucoup de prédicteurs, il est toujours possible de trouver une combinaison linéaire qui se trouve avoir une forte corrélation avec . Ce sera une fausse corrélation, et une telle pointera généralement dans une direction expliquant très peu de variance dansy = X β + ϵ β = ( X ⊤ X ) - 1 X ⊤ y β X β y y β Xβy= Xβ+ ϵβ= ( X⊤X )- 1X⊤yβX βyyβX. Les directions expliquant très peu de variance sont souvent des directions très "bruyantes". Si tel est le cas, même si, sur les données de formation, la solution OLS fonctionne très bien, sur les données de test, elle sera bien pire.
Afin d'éviter le surajustement, on utilise des méthodes de régularisation qui obligent essentiellement à pointer dans des directions de forte variance dans (cela est aussi appelé "rétrécissement" de ; voir Pourquoi le rétrécissement fonctionne-t-il? ). L'une de ces méthodes est la régression en composantes principales (PCR) qui rejette simplement toutes les directions à faible variance. Une autre (meilleure) méthode est la régression des crêtes qui pénalise en douceur les directions à faible variance. Encore une autre méthode est PLS1.X ββXβ
PLS1 remplace l'objectif OLS de trouver qui maximise la corrélation avec un autre objectif de trouver with length maximisant la covariance ce qui pénalise à nouveau efficacement les directions de faible variance.corr ( X β , y ) β ‖ β ‖ = 1 cov ( X β , y ) ∼ corr ( X β , y ) ⋅ √βcorr( X β, y )β∥ β∥ = 1
cov( X β, y ) ∼ corr( X β, y ) ⋅ var( X β)-------√,
La recherche d'un tel (appelons-le ) produit le premier composant PLS . On peut en outre rechercher le deuxième (puis le troisième, etc.) composant PLS qui a la covariance la plus élevée possible avec sous la contrainte de ne pas être corrélé avec tous les composants précédents. Cela doit être résolu de manière itérative, car il n'y a pas de solution de forme fermée pour tous les composants (la direction du premier composant est simplement donnée parβ 1 z 1 = X β 1 y β 1 X ⊤ y β z β i β P L Sββ1z1= X β1yβ1X⊤ynormalisé à la longueur unitaire). Lorsque le nombre souhaité de composants est extrait, la régression PLS supprime les prédicteurs d'origine et utilise les composants PLS comme nouveaux prédicteurs; cela donne une combinaison linéaire de ceux-ci qui peuvent être combinés avec tous pour former le final .βzβjeβP L S
Notez que:
- Si tous les composants PLS1 sont utilisés, alors PLS sera équivalent à OLS. Le nombre de composants sert donc de paramètre de régularisation: plus le nombre est faible, plus la régularisation est forte.
- Si les prédicteurs sont pas corrélés et ont tous la même variance (c'est-à-dire que a été blanchi ), alors il n'y a qu'un seul composant PLS1 et il est équivalent à OLS.XXX
- Les vecteurs de poids et pour seront pas orthogonaux, mais produiront des composants non corrélés et .β j i ≠ j z i = X β i z j = X β jβjeβji ≠ jzje= X βjezj= X βj
Cela étant dit, je ne connais aucun avantage pratique de la régression PLS1 par rapport à la régression de crête (alors que cette dernière présente de nombreux avantages: elle est continue et non discrète, a une solution analytique, est beaucoup plus standard, permet des extensions de noyau et des analyses formules pour les erreurs de validation croisée avec omission, etc., etc.).
Citant Frank & Friedman:
RR, PCR et PLS sont considérés dans la section 3 pour fonctionner de manière similaire. Leur principal objectif est de réduire le vecteur de coefficient de solution de la solution OLS vers des directions dans l'espace variable prédictif d'un plus grand échantillon. La PCR et le PLS rétrécissent plus fortement à l'écart des directions d'étalement faibles que RR, ce qui fournit le rétrécissement optimal (parmi les estimateurs linéaires) pour une équidirectionnelle antérieure. Ainsi, la PCR et le PLS supposent que la vérité est susceptible d'avoir des alignements préférentiels particuliers avec les directions d'étalement élevées de la distribution des variables prédictives (échantillon). Un résultat quelque peu surprenant est que PLS (en plus) place une masse de probabilité accrue sur le vrai vecteur de coefficient en alignant avec la ème direction de la composante principale, oùKKK est le nombre de composants PLS utilisés, élargissant en fait la solution OLS dans cette direction.
Ils mènent également une étude de simulation approfondie et concluent (soulignement le mien):
Pour les situations couvertes par cette étude de simulation, on peut conclure que toutes les méthodes biaisées (RR, PCR, PLS et VSS) fournissent une amélioration substantielle par rapport à OLS. [...] Dans toutes les situations, RR a dominé toutes les autres méthodes étudiées. Le PLS faisait généralement presque aussi bien que le RR et surpassait généralement la PCR, mais pas beaucoup.
Mise à jour: Dans les commentaires @cbeleites (qui travaille en chimiométrie) suggère deux avantages possibles du PLS par rapport à RR:
Un analyste peut avoir une estimation a priori du nombre de composants latents qui devraient être présents dans les données; cela permettra effectivement de définir une force de régularisation sans effectuer de validation croisée (et il pourrait ne pas y avoir suffisamment de données pour faire un CV fiable). Un tel choix a priori de pourrait être plus problématique dans RR.λ
RR fournit une seule combinaison linéaire comme solution optimale. En revanche, PLS avec par exemple cinq composants donne cinq combinaisons linéaires qui sont ensuite combinées pour prédire . Les variables d'origine qui sont fortement corrélées sont susceptibles d'être combinées en une seule composante PLS (car les combiner ensemble augmentera le terme de variance expliqué). Ainsi, il pourrait être possible d'interpréter les composants PLS individuels comme des facteurs latents réels conduisant à . L'argument est qu'il est plus facile d'interpréter etc., par opposition à l'articulation β i y y β 1 , β 2 , β P L SβRRβiyyβ1,β2,βPLS. Comparez cela avec la PCR où l'on peut également voir comme un avantage que des composants principaux individuels peuvent potentiellement être interprétés et assignés une certaine signification qualitative.