J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés:
1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) la corrélation entre les variables d'entrée sera abaissée. Cette interprétation est-elle correcte?
2) S'il s'agit d'une application de rétrécissement, pourquoi n'est-elle pas formulée dans les lignes de , en supposant que nous pouvons en quelque sorte restreindre lambda à [0,1] avec une normalisation .
3) Qu'est-ce qui peut être une normalisation pour afin qu'elle puisse être limitée à une plage standard comme [0,1].
4) L'ajout d'une constante à la diagonale affectera toutes les valeurs propres. Serait-il préférable d'attaquer uniquement les valeurs singulières ou quasi singulières? Est-ce que cela équivaut à appliquer l'ACP à X et à conserver les principaux composants N avant la régression ou a-t-il un nom différent (car il ne modifie pas le calcul de la covariance croisée)?
5) Pouvons-nous régulariser la covariance croisée, ou est-ce utile, ce qui signifie
où un petit abaissera la covariance croisée. Évidemment, cela réduit également tous les , mais il existe peut-être une méthode plus intelligente comme le seuillage dur / souple en fonction de la valeur de covariance.β