Qu'est-ce que le «partiel» dans les méthodes des moindres carrés partiels?

Dans la régression des moindres carrés partiels (PLSR) ou la modélisation des équations structurelles des moindres carrés partiels (PLS-SEM), à quoi fait référence le terme "partiel"?

— Alph
source

Notez que Wold Jr. pense que le nom de "moindre carré partiel" est trompeur et aurait dû être appelé "projection sur des espaces latents".

— Momo

@Momo: Oui, j'ai lu à ce sujet. Cependant, même si le PLS est trompeur dans une certaine mesure, la "projection sur les espaces latents" est encore moins claire, sans parler du manque de commodité dans l'utilisation du terme sous forme écrite.

— Aleksandr Blekh

Je voudrais répondre à cette question, largement basée sur la perspective historique , qui est assez intéressante. Herman Wold, qui a inventé l' approche des moindres carrés partiels (PLS) , n'a pas commencé à utiliser le terme PLS (ou même à mentionner le terme partiel ) tout de suite. Au cours de la période initiale (1966-1969), il a appelé cette approche NILES - abréviation du terme et du titre de son article initial sur ce sujet Estimation non linéaire par procédures itératives des moindres carrés , publié en 1966.

Comme nous pouvons le voir, les procédures qui seront appelées plus tard partielles ont été appelées itératives , en se concentrant sur la nature itérative de la procédure d'estimation des poids et des variables latentes (LV). Le terme «moindres carrés» provient de l'utilisation de la régression des moindres carrés ordinaires (OLS) pour estimer d'autres paramètres inconnus d'un modèle (Wold, 1980). Il semble que le terme «partiel» trouve ses racines dans les procédures NILES, qui ont mis en œuvre «l'idée de diviser les paramètres d'un modèle en sous-ensembles afin qu'ils puissent être estimés en parties» (Sanchez, 2013, p. 216; je souligne) .

La première utilisation du terme PLS a eu lieu dans les procédures d'estimation des moindres carrés partiels itératifs non linéaires (NIPALS) , dont la publication marque la prochaine période de l'histoire du PLS - la période de modélisation NIPALS . Les années 1970 et 1980 deviennent la période de la modélisation douce , lorsque, influencé par l'approche LISREL de Karl Joreskog à SEM, Wold transforme l'approche NIPALS en modélisation douce, qui a essentiellement formé le cœur de l'approche PLS moderne (le terme PLS devient courant à la fin des années 1970 ). Les années 1990, la prochaine période de l'histoire du PLS, que Sanchez (2013) appelle la période «gap», est marquée en grande partie par la diminution de son utilisation. Heureusement, à partir des années 2000 ( période de consolidation), PLS a connu son retour en tant qu'approche très populaire de l'analyse SEM, notamment en sciences sociales.

MISE À JOUR (en réponse au commentaire de l'amibe):

Peut-être que le libellé de Sanchez n'est pas idéal dans la phrase que j'ai citée. Je pense que "estimé en parties" s'applique aux blocs latents de variables. Wold (1980) décrit le concept en détail.
Vous avez raison, NIPALS a été initialement développé pour PCA. La confusion vient du fait qu'il existe à la fois des approches PLS linéaires et PLS non linéaires. Je pense que Rosipal (2011) explique très bien les différences (du moins, c'est la meilleure explication que j'ai vue jusqu'à présent).

MISE À JOUR 2 (clarification supplémentaire):

En réponse aux préoccupations exprimées dans la réponse de l'amibe, je voudrais clarifier certaines choses. Il me semble qu'il faut distinguer l'usage du mot "partiel" entre NIPALS et PLS. Cela crée deux questions distinctes concernant 1) le sens de "partiel" dans NIPALS et 2) le sens de "partiel" dans PLS (c'est la question originale de Phil2014). Bien que je ne sois pas sûr de la première, je peux apporter des éclaircissements sur la seconde.

Selon Wold, Sjöström et Eriksson (2001),

Le "partiel" dans PLS indique qu'il s'agit d'une régression partielle, car ...

En d'autres termes, "partiel" découle du fait que la décomposition des données par l'algorithme NIPALS pour PLS peut ne pas inclure tous les composants , donc "partielle". Je soupçonne que la même raison s'applique aux NIPALS en général, s'il est possible d'utiliser l'algorithme sur des données "partielles". Cela expliquerait "P" dans NIPALS.

En termes d'utilisation du mot "non linéaire" dans la définition NIPALS (ne pas confondre avec le PLS non linéaire , qui représente une variante non linéaire de l'approche PLS!), Je pense qu'il ne fait pas référence à l' algorithme lui - même , mais aux modèles non linéaires , qui peuvent être analysé, en utilisant NIPALS basé sur la régression linéaire.

MISE À JOUR 3 (explication d'Herman Wold):

Alors que l'article de Herman Wold de 1969 semble être le premier article sur NIPALS, j'ai réussi à trouver un autre des premiers articles sur ce sujet. Il s'agit d'un article de Wold (1974), où le «père» de PLS présente sa justification pour utiliser le mot «partiel» dans la définition de NIPALS (p. 71):

3.1.4. Estimation NIPALS: OLS itératif. Si une ou plusieurs variables du modèle sont latentes, les relations prédictives impliquent non seulement des paramètres inconnus, mais également des variables inconnues, ce qui fait que le problème d'estimation devient non linéaire. Comme indiqué en 3.1 (iii), NIPALS résout ce problème par une procédure itérative, disons avec les étapes s = 1, 2, ... Chaque étape s implique un nombre fini de régressions OLS, une pour chaque relation prédictive du modèle. Chacun de ces régression donne des estimations proxy pour un sous-ensemble des paramètres et des variables latentes inconnues ( d' où le nom partielle des moindres carrés), et ces estimations proxy sont utilisés dans l'étape suivante de la procédure pour le calcul de nouvelles estimations de proxy.

Les références

Rosipal, R. (2011). Moindres carrés partiels non linéaires: un aperçu. Dans Lodhi H.et Yamanishi Y. (Eds.), Chemoinformatics and Advanced Machine Learning Perspectives: Complex Computational Methods and Collaborative Techniques , pp. 169-189. ACCM, IGI Global. Récupéré de http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013). Modélisation de chemin PLS avec R. Berkeley, CA: Trowchez Editions. Récupéré de http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Flux causaux à variables latentes: séparations des voies à la lumière de la modélisation NIPALS. Revue économique européenne, 5 , 67-86. Éditions Hollande du Nord.

Wold, H. (1980). Construction et évaluation de modèles lorsque les connaissances théoriques sont rares: théorie et applications des moindres carrés partiels. Dans J. Kmenta et JB Ramsey (éd.), Evaluation of économetric models , pp. 47-74. New York: Academic Press. Extrait de http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M. et Eriksson, L. (2001). PLS-régression: Un outil de base de la chimiométrie. Chemometrics and Intelligent Laboratory Systems, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Extrait de http://www.libpls.net/publication/PLS_basic_2001.pdf

— Aleksandr Blekh
source

@amoeba: Je pense que cet article explique PLS en contraste avec d'autres approches d'une manière plus technique, dont vous avez récemment discuté. Cependant, notez que l'explication ci-dessus se concentre sur la régression PLS, tandis que PLS comprend plusieurs classes d' analyse de système (voir diapositive 10 dans la présentation suivante). Les notes techniques sur les diapositives 25-29 sont également utiles à mon humble avis. La présentation: plsmodeling.com/pls/pls-introduction .

— Aleksandr Blekh

@ Aleksandr Blekh: Ce sont de très belles références.

— Alph

Wow, les gens donnent des noms aux périodes de l'histoire du PLS! Impressionnant.

— Amoeba dit Reinstate Monica

Sérieusement, j'ai examiné le livre de Sanchez, mais je ne comprends toujours pas ce que NIPALS a à voir avec "l'idée de diviser les paramètres d'un modèle en sous-ensembles afin qu'ils puissent être estimés en parties" . NIPALS a été initialement suggéré comme méthode de calcul des principaux composants, non? C'est assez simple. Je ne vois aucune "division" des paramètres en "sous-ensembles" là-bas, donc je n'ai aucune idée de ce dont parle Sanchez ici. Soit dit en passant, je ne comprends pas non plus "non linéaire" dans NIPALS. Certes, l'ACP est une technique linéaire!

— amibe dit Réintégrer Monica le

@amoeba: Veuillez voir ma mise à jour en réponse à votre commentaire. J'espère que cela aide.

— Aleksandr Blekh

$X$ $Y$

Cependant, historiquement, comme @Aleksandr l'explique bien (+1), PLS a été introduit par Wold qui a utilisé son algorithme NIPALS pour l'implémenter; NIPALS signifie "moindres carrés partiels itératifs non linéaires", donc évidemment P dans PLS vient d'arriver de NIPALS.

$\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
$\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

$\v$ $\p$ $\X$

(Pourquoi il l'a appelé "non linéaire", je ne comprends toujours pas.)

Ce terme est remarquablement trompeur, car s'il est "partiel", alors chaque algorithme de maximisation des attentes est également "partiel" (en fait, NIPALS peut être considéré comme une forme primitive de SE, voir Roweis 1998 ). Je pense que PLS est un bon candidat pour le concours Le terme le plus trompeur en apprentissage automatique. Hélas, il est peu probable que cela change, malgré les efforts de Wold Jr. (voir le commentaire de @ Momo ci-dessus).

— amibe dit réintégrer Monica
source

Vous pouvez être intéressé par la MISE À JOUR 2 de ma réponse avec plus de précisions.

— Aleksandr Blekh

Merci d'avoir maintenu cette discussion (pour éviter tout malentendu, je dois dire que je n'ai pas du tout essayé de vous critiquer!). Maintenant, à votre Update2. Pourquoi pensez-vous que nous devrions distinguer le sens de "partiel" dans PLS et NIPALS? Cela semble étrange; PLS est né du travail sur NIPALS et cela suggère que son nom est simplement un "niPaLS" raccourci. Cela semble être confirmé par Wold et al. Document de 2001 que vous avez trouvé: "Cela comprenait un moyen simple mais efficace d'estimer les paramètres de ces modèles appelés NIPALS [...]. Cela a conduit, à son tour, à l'acronyme PLS pour ces modèles" .

— amibe dit Réintégrer Monica

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

Génial! Je pense que la question a finalement reçu une réponse satisfaisante. Et j'ai finalement voté pour votre réponse, +1 :-) J'ai édité ma réponse pour incorporer cette nouvelle compréhension. En ce qui concerne votre réponse: lorsque vous avez expliqué le mot "partiel" dans la mise à jour 1 et la mise à jour 2, vouliez-vous vraiment dire la même chose que celle dont nous sommes maintenant convenus? Pour moi, il semble que votre réponse contienne actuellement plusieurs interprétations différentes ...

— Amoeba dit Reinstate Monica

Je ne sais pas! C'est peut-être correct. Pouvez-vous expliquer quels "modèles non linéaires" peuvent être analysés à l'aide de NIPALS et comment? D'un autre côté, c'est probablement un sujet complètement différent. Je suppose que le fait est que Wold a développé NIPALS pour ne pas calculer PCA pour lui-même, mais avait des applications particulières à l'esprit, où il devait traiter des problèmes non linéaires et les linéariser d'une manière ou d'une autre, en réduisant à PCA? De nos jours, les gens présentent NIPALS comme un algorithme simple pour calculer les principaux vecteurs singuliers, mais peut-être que Wold de 1969 ne serait pas du tout d'accord avec cette vue!

— amibe dit Réintégrer Monica