Réponses:
Le LASSO (opérateur de sélection et de retrait le moins absolu) est une méthode de régression consistant à pénaliser la taille absolue des coefficients de régression.
En pénalisant (ou en contraignant de manière équivalente la somme des valeurs absolues des estimations), vous vous retrouvez dans une situation où certaines des estimations de paramètres peuvent être exactement nulles. Plus la sanction appliquée est importante, plus les estimations sont proches de zéro.
Ceci est pratique lorsque nous voulons une sélection automatique de caractéristiques / variables, ou lorsqu'il s'agit de prédicteurs hautement corrélés, où la régression standard aura généralement des coefficients de régression «trop grands».
https://web.stanford.edu/~hastie/ElemStatLearn/ (téléchargement gratuit) contient une bonne description de LASSO et des méthodes associées.
La régression LASSO est un type d’analyse de régression dans laquelle la sélection et la régulation des variables ont lieu simultanément. Cette méthode utilise une pénalité qui affecte leur valeur des coefficients de régression. Plus la pénalité augmente, plus les coefficients deviennent zéro et vice versa. Il utilise la technique de normalisation L1 dans laquelle le paramètre de réglage est utilisé en tant que quantité de retrait. À mesure que le paramètre de réglage augmente, le biais augmente et, comme il diminue, la variance augmente. S'il est constant, aucun des coefficients n'est nul et, comme il tend vers l'infini, tous les coefficients seront nuls.
Dans la régression "normale" (MCO), l’objectif est de minimiser la somme des carrés résiduels (RSS) afin d’estimer les coefficients
En cas de régression de LASSO, vous estimez les coefficients avec une approche légèrement différente:
La nouvelle partie est surlignée en rouge, somme des valeurs des coefficients absolus pénalisés par , donc contrôle la quantité de régulation (L1).
Notez que si , il en résulterait les mêmes coefficients que celui de la régression linéaire simple. La formule montre que, dans le cas de LASSO, nécessite à la fois que les règles RSS et L1 (nouvelle partie rouge) soient minimales. Si , la pénalité L1 rouge contraint la taille des coefficients, de sorte que le coefficient ne peut augmenter que si cela conduit à la même réduction de RSS. Plus généralement, les coefficients ne peuvent augmenter que si nous constatons une diminution comparable de la somme des carrés résiduels (RSS). Ainsi, plus vous placez hautplus les coefficients sont pénalisés et plus les coefficients sont petits, certains peuvent devenir nuls. Cela signifie que LASSO peut générer des modèles parcimonieux en sélectionnant les fonctionnalités et empêche le modèle de surapprentissage. Cela dit, vous pouvez utiliser LASSO si vous disposez de nombreuses fonctionnalités et que votre objectif est plutôt de prévoir des données que d'interpréter les coefficients de votre modèle.