Le principal avantage de la régression pas à pas est qu'elle est efficace sur le plan des calculs. Cependant, ses performances sont généralement pires que les méthodes alternatives. Le problème est que c'est trop gourmand. En faisant une sélection difficile sur le régresseur suivant et en «gelant» le poids, il fait des choix qui sont localement optimaux à chaque étape, mais sous-optimaux en général. Et, il ne peut pas revenir en arrière pour réviser ses choix passés.
Pour autant que je sache, la régression pas à pas est généralement tombée en disgrâce par rapport à la régression régularisée (LASSO), qui tend à produire de meilleures solutions.l1
Tibshirani (1996) . Régression retrait et de la sélection via le lasso
LASSO pénalise la norme des poids, ce qui induit une faible densité dans la solution (de nombreux poids sont forcés à zéro). Ceci effectue la sélection des variables (les variables «pertinentes» peuvent avoir des poids non nuls). Le degré de rareté est contrôlé par le terme de pénalité et une procédure doit être utilisée pour le sélectionner (la validation croisée est un choix courant). LASSO demande plus de calculs que la régression pas à pas, mais il existe un certain nombre d'algorithmes efficaces. Quelques exemples sont la régression au moindre angle ( LARS ) et une approche basée sur la descente de coordonnées .l1
Une approche similaire à ce que vous avez suggéré dans (2) est appelée recherche de correspondance orthogonale. C'est une généralisation de la poursuite d'appariement, qui est le nom de la régression pas à pas dans la littérature sur le traitement du signal.
Pati et al. (1993) . Recherche d'appariement orthogonal: approximation de la fonction récursive avec applications à la décomposition en ondelettes
À chaque itération, le meilleur meilleur régresseur suivant est ajouté à l'ensemble actif. Ensuite, les poids de tous les régresseurs de l'ensemble actif sont recalculés. En raison de l'étape de repondération, cette approche est moins gourmande (et a de meilleures performances) que la poursuite d'appariement régulière / la régression pas à pas. Mais, il utilise toujours une heuristique de recherche gourmande.
Toutes ces approches (régression pas à pas, LASSO et poursuite de l'appariement orthogonal) peuvent être considérées comme des approximations du problème suivant:
minw∥y−Xw∥22s.t. ∥w∥0≤c
Dans un contexte de régression, les colonnes de correspondent aux variables indépendantes et à la variable dépendante. Dans le traitement du signal, les colonnes de correspondent aux fonctions de base et est un signal à approximer. Le but est de trouver un ensemble clairsemé de poids qui donne la meilleure approximation (moindres carrés) de . La norme compte simplement le nombre d'entrées non nulles dans . Malheureusement, ce problème est NP-difficile, donc des algorithmes d'approximation doivent être utilisés dans la pratique. La régression pas à pas et la recherche de correspondance orthogonale tentent de résoudre le problème en utilisant une stratégie de recherche gourmande. LASSO reformule le problème en utilisant un relâchement de laXyXywyl0wl0norme à la norme . Ici, le problème d'optimisation devient convexe (et donc traitable). Et, bien que le problème ne soit plus identique, la solution est similaire. Si je me souviens bien, il a été prouvé que LASSO et la recherche de correspondance orthogonale récupèrent la solution exacte dans certaines conditions.l1