Les estimations de régression L1 sont médianes alors que les estimations de régression L2 signifient?


24

On m'a donc posé une question sur laquelle les mesures centrales L1 (c.-à-d. Le lasso) et L2 (c.-à-d. La régression des crêtes) ont été estimées. La réponse est L1 = médiane et L2 = moyenne. Y a-t-il un type de raisonnement intuitif à cela? Ou faut-il le déterminer algébriquement? Si oui, comment dois-je procéder?


4
Par L1 / L2, parlez-vous de la fonction objectif ou des contraintes? Si la fonction objective alors oui, l'erreur L1 est minimisée avec la médiane conditionnelle et L2 la moyenne conditionnelle. Si des contraintes (à quoi se réfèrent crête / lasso), alors ce n'est pas la bonne façon d'y penser. Leurs "mesures centrales" visent toujours une moyenne conditionnelle mais avec des sanctions différentes sur . β
muratoa

Réponses:


24

Il existe une explication géométrique simple pour expliquer pourquoi la fonction de perte L1 donne la médiane.

Rappelez-vous que nous travaillons dans une seule dimension, alors imaginez une droite numérique s'étalant horizontalement. Tracez chacun des points de données sur la droite numérique. Mettez votre doigt quelque part sur la ligne; votre doigt sera votre estimation actuelle du candidat.

Supposons que vous déplaciez votre doigt un peu vers la droite, par exemple unités vers la droite. Qu'arrive-t-il à la perte totale? Eh bien, si votre doigt était entre deux points de données et que vous le déplacez sur un point de données, vous avez augmenté la perte totale de pour chaque point de données à gauche de votre doigt et diminué de pour chaque donnée pointez vers la droite de votre doigt. Donc, s'il y a plus de points de données à droite de votre doigt qu'il n'y en a à gauche, déplacer votre doigt vers la droite diminue la perte totale. En d'autres termes, si plus de la moitié des points de données se trouvent à droite de votre doigt, vous devez déplacer votre doigt vers la droite.δ δδδδ

Cela vous amène à déplacer votre doigt vers un endroit où la moitié des points de données se trouvent à cet endroit et la moitié à droite. Cet endroit est la médiane.

C'est L1 et la médiane. Malheureusement, je n'ai pas d'explication similaire, "toute intuition, pas d'algèbre" pour L2 et la moyenne.


7
Si nous parlons d'une simple estimation ponctuelle, il s'agit d'un calcul simple. ddβ1ni=1n(yiβ)2=21ni=1n(yiβ)=0β=1niyi
muratoa

3
@muratoa, oui, je connais la dérivation du calcul, mais la question demande spécifiquement une explication qui se concentre sur l'intuition et évite l'algèbre. Je suppose que le questionneur connaît déjà la dérivation du calcul, mais cherche quelque chose qui fournit plus d'intuition.
DW

Je pensais que l'OP mentionnait une régression qui suggère qu'il parle de l'estimation de y donnée x qui est une moyenne conditionnelle utilisant les moindres carrés et la médiane conditionnelle pour l'erreur absolue moyenne. Les mêmes explications devraient fonctionner mais le problème est un peu différent. L'explication du calcul de la moyenne est assez claire et simple. Peut-être qu'une explication de la moyenne peut être donnée de la même manière que les DW pour la médiane. La moyenne de l'échantillon est une estimation non biaisée de la moyenne de la population.
Michael R. Chernick

Lorsque vous éloignez l'estimation de la moyenne de l'échantillon, l'erreur quadratique moyenne change en raison d'une augmentation du biais. L'erreur quadratique moyenne augmente en fait de d 2 lorsque l'estimation ajoute d à la moyenne de l'échantillon comme estimation candidate. 2
Michael R. Chernick

11
Une version rapide et sale de l'algèbre donnée par muratoa existe pour le cas L1. Remarquez que sauf lorsque , la dérivée de | y i - β | wrt β est - s g n ( y i - β ) , soit - 1 si β < y i et + 1 si β > y i . Alors dβ=yi|yiβ|βsgn(yiβ)1β<yi+1β>yi , sauf lorsque β est un y i . La dérivée disparaît lorsqu'il y a le même nombre de termes positifs et négatifs parmi les y i - β , ce qui se produit grosso modo lorsque β est la médiane des y i . ddβ1ni|yiβ|=1nisgn(yiβ)βyiyiββyi
Yves

17

Cette explication est un résumé du muratoa et des commentaires d'Yves sur la réponse de DW. Bien qu'il soit basé sur le calcul, je l'ai trouvé simple et facile à comprendre.

En supposant que nous avons et vouloir obtenir une nouvelle estimation β basée sur eux. La plus petite perte est obtenue lorsque l'on trouve β qui rend la dérivée de la perte à zéro.y1,y2,...ykββ

Perte L1

L1

L1=1ki=1k|yiβ|
sgn(yi-β)vaut 1 lorsqueyi>β, -1 lorsqueyi<β. La dérivée est égale à 0 lorsqu'il y a le même nombre de termes positifs et négatifs parmi lesyi-β, ce qui signifie queβdevrait être la médiane deyi.
L1β=-1kje=1ksgn(yje-β)
sgn(yje-β)yje>βyje<βyje-ββyje

Perte de L2

L2=1kje=1k(yje-β)2
L2β=-2kje=1k(yje-β)
L2β=0β=1kje=1kyje

βyje

3

Ajout à la réponse de DW avec un exemple encore plus pratique (pour la fonction de perte L2 également):

Imaginez un petit village composé de 4 maisons proches les unes des autres (par exemple 10 mètres). A 1 kilomètre de ceux-ci, vous avez une autre maison très isolée. Maintenant, vous arrivez dans cette ville et souhaitez construire votre propre maison quelque part. Vous voulez vivre près des autres maisons et être ami avec tout le monde. Considérez ces deux scénarios alternatifs:

  1. Vous décidez d'être à l'endroit où la distance moyenne à n'importe quelle maison est la plus petite (c'est-à-dire en minimisant une fonction de perte L1).

    • Si vous placez votre maison au centre du village, vous serez à environ 10 mètres de 4 maisons et à 1 kilomètre d'une maison, ce qui vous donne une distance moyenne d'environ 200 mètres (10 + 10 + 10 + 10 + 1000 / 5).
    • Si vous placez votre maison à 500 mètres du village, vous serez à environ 500 mètres de 5 maisons, ce qui vous donne une distance moyenne de 500 mètres.
    • Si vous placez votre maison à côté de la maison isolée, vous serez à 1 km du village (4 maisons) et à environ 10 mètres d'une maison, ce qui vous donne une distance moyenne d'environ 800 mètres.

    Ainsi, la distance moyenne la plus basse de 100 mètres est atteinte en construisant votre maison dans le village. Plus précisément, vous construirez votre maison au milieu de ces 4 maisons pour gagner encore quelques mètres de distance moyenne. Et il s'avère que ce point est le " point médian ", que vous auriez obtenu de la même manière en utilisant la formule médiane.

  2. Vous décidez d'adopter une approche démocratique. Vous demandez à chacun de vos cinq futurs voisins leur emplacement préféré pour votre nouvelle maison. Ils vous aiment tous et veulent que vous viviez près d'eux. Donc, ils indiquent tous que leur emplacement préféré est l'endroit juste à côté de leur propre maison. Vous prenez la moyenne de tous les lieux votés de vos cinq voisins, et le résultat est "à 200 mètres du village" (moyenne des votes: 0 + 0 + 0 + 0 + 1000/5 = 200), qui est le " point moyen " des 5 maisons, que vous auriez obtenu de la même façon en utilisant la formule moyenne. Et cet emplacement se révèle être exactement le même qui minimise la somme des distances au carré (c'est-à-dire la fonction de perte L2). Faisons juste le calcul pour le voir:
    • À cet emplacement, la somme des distances au carré est: 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 200 ^ 2 + 800 ^ 2 = 800 000
    • Si nous construisons la maison au centre du village, notre somme des distances au carré serait: 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 0 ^ 2 + 1000 ^ 2 = 1 000 000
    • Si nous construisons construisons la maison à 100 mètres du village (comme en 1), la somme des distances au carré est: 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 100 ^ 2 + 900 ^ 2 = 850 000
    • Si nous construisons la maison à 100 mètres de la maison isolée, la somme des distances au carré est: 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 900 ^ 2 + 100 ^ 2 = 3 250 000

Alors oui, il est intéressant de remarquer que, un peu contre-intuitivement, quand on minimise la somme des distances, on ne se retrouve pas au "milieu" au sens de la moyenne, mais au sens du médian. Cela fait partie des raisons pour lesquelles OLS, l'un des modèles de régression les plus populaires, utilise des erreurs quadratiques plutôt que des erreurs absolues.


1

En plus des réponses déjà publiées (qui m'ont été très utiles!), Il existe une explication géométrique du lien entre la norme L2 et la moyenne.

Pour utiliser la même notation que chefwen , la formule pour la perte L2 est:

L2=1kje=1k(yje-β)2

βL2k

je=1k(yje-β)2

ykyβ=(β,β,...,β)

βyββ1=(1,1,...,1)y1

k=2y=(2,6)1(4,4)

le vecteur y projeté sur beta

k>2

β=proj1y=y1|1|21β=je=1kyjek
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.