1. Qu'est-ce que la régression à rang réduit (RRR)?
Considérons la régression linéaire multiple multivariée, c'est-à-dire la régression avec variables indépendantes et q variables dépendantes. Soit X et Y des ensembles de données de prédicteur centré ( n × p ) et de réponse ( n × q ). La régression habituelle des moindres carrés ordinaires (OLS) peut alors être formulée comme minimisant la fonction de coût suivante:pqXOuin × pn × q
L = ∥ Y - X B ∥2,
où est une matrice de poids de régression. Sa solution est donnée par et il est facile de voir que cela équivaut à faire régressions OLS distinctes, une pour chaque variable dépendante.Bp × q
B^O L S= ( X⊤X )- 1X⊤Oui ,
q
Régression rang réduit introduit une contrainte de rang sur , à savoir devrait être réduite au minimum avec , où est le maximum autorisé de rang . L rang ( B ) ≤ r r BBLrang( B ) ≤ rrB
2. Comment obtenir la solution RRR?
Il s'avère que RRR peut être casté comme un problème de vecteur propre. En effet, en utilisant le fait que OLS est essentiellement une projection orthogonale sur l'espace de colonne de , nous pouvons réécrire commeLe premier terme ne dépend pas de et le deuxième terme peut être minimisé par SVD / PCA des valeurs ajustées . L L = ‖ Y - X B O L S ‖ 2 + ‖ X B O L S - X B ‖ 2 . B Y = X B O L SXL
L = ∥ Y - X B^O L S∥2+ ∥ X B^O L S- X B ∥2.
BOui^= X B^O L S
Plus précisément, si sont les premiers axes principaux de , alors r Y B R R R = B O L S U r U ⊤ r .UrrOui^
B^R R R= B^O L SUrU⊤r.
3. À quoi sert RRR?
Il peut y avoir deux raisons d'utiliser RRR.
Tout d'abord, on peut l'utiliser à des fins de régularisation. De même à la régression de crête (RR), Lasso, etc., RRR introduit une pénalité "retrait" sur . Le rang optimal peut être trouvé par validation croisée. D'après mon expérience, RRR surpasse facilement l'OLS mais a tendance à perdre contre RR. Cependant, RRR + RR peuvent fonctionner (légèrement) mieux que RR seul. rBr
Deuxièmement, on peut l'utiliser comme méthode de réduction de dimensionnalité / d'exploration de données. Si nous avons un tas de variables prédictives et un tas de variables dépendantes, alors RRR construira des "facteurs latents" dans l'espace des prédicteurs qui feront le meilleur travail pour expliquer la variance des DV. On peut alors essayer d'interpréter ces facteurs latents, de les tracer, etc. Pour autant que je sache, cela se fait couramment en écologie où RRR est connu sous le nom d' analyse de redondance et est un exemple de ce qu'ils appellent des méthodes d'ordination ( voir la réponse de @ GavinSimpson ici ).
4. Relation avec d'autres méthodes de réduction de la dimensionnalité
RRR est étroitement lié à d'autres méthodes de réduction de la dimensionnalité, telles que l'ACC et le PLS. Je l'ai couvert un peu dans ma réponse à Quel est le lien entre les moindres carrés partiels, la régression à rang réduit et la régression à composantes principales?
si et sont des ensembles de données de prédicteur centré ( ) et de réponse ( ) et si nous recherchons la première paire d'axes, pour et pour , alors ces méthodes maximisent les quantités suivantes:Y n × p n × q w ∈ R p X v ∈ R q YXOuin × pn × qw ∈ RpXv ∈ RqOui
P C A :R R R :P L S :C C A :Var( X w )Var( X w ) ⋅Corr2( X w , Y v ) ⋅ Var( Y v )Var( X w ) ⋅ Corr2( X w , Y v ) ⋅ Var( Y v ) = Cov2( X w , Y v )Var( X w ) ⋅Corr2( X w , Y v )
Voir ici pour plus de détails.
Voir Torre, 2009, A Least-Squares Framework for Component Analysis pour un traitement détaillé de la façon dont la plupart des méthodes multivariées linéaires courantes (par exemple PCA, CCA, LDA, - mais pas PLS!) Peuvent être considérées comme RRR.
5. Pourquoi cette section dans Hastie et al. si confus?
Hastie et al. utilisez le terme RRR pour désigner une chose légèrement différente! Au lieu d'utiliser la fonction de perte ils utilisent comme on peut le voir dans leur formule 3.68. Ceci introduit un facteur de blanchiment dans la fonction de perte, blanchissant essentiellement les variables dépendantes. Si vous regardez la comparaison entre CCA et RRR ci-dessus, vous remarquerez que si est blanchi, la différence disparaît. Alors, ce que Hastie et al. appeler RRR est en fait CCA déguisé (et en effet, voir leur 3.69).
L = ∥ Y - X B ∥2,
L = ∥ ( Y - X B ) ( Y⊤Y )- 1 / deux∥2,
OuiOui
Rien de tout cela n'est correctement expliqué dans cette section, d'où la confusion.
Voir ma réponse au tutoriel amical ou à l'introduction à la régression à rang réduit pour une lecture plus approfondie.