Normes


13

Une norme L1 est unique (au moins en partie) car p=1 est à la frontière entre non convexe et convexe. Une norme L1 est la norme convexe «la plus clairsemée» (non?).

Je comprends que la norme euclidienne a ses racines dans la géométrie et elle a une interprétation claire lorsque les dimensions ont les mêmes unités. Mais je ne comprends pas pourquoi il est utilisé préférentiellement par rapport aux autres nombres réels p > 1 : p = 1,5 ? p = π ? Pourquoi ne pas utiliser toute la gamme continue comme hyperparamètre?p=2p>1p=1.5p=π

Qu'est-ce que je rate?


1
"Utilisé de préférence" dans quelles applications, en particulier? Les normes sont omniprésentes en mathématiques, statistiques et physique; dans certains sous-domaines, certaines normes sont plus répandues que d'autres parce qu'elles sont plus significatives ou plus simples à utiliser. Pour cette raison, les réponses à cette question seront probablement nombreuses et variées (si variées, en effet, que personnellement je trouve cela sans réponse). J'ai donc fait de cet article un "Community Wiki" (CW); mais si vous avez une application spécifique ou un champ étroit en tête, alors en rendant votre question plus précise, il devrait être possible de supprimer le statut CW.
whuber

Réponses:


12

Une explication plus mathématique est que l'espace , composé de toutes les séries qui convergent en p-norme, n'est que Hilbert avec p = 2 et aucune autre valeur. Cela signifie que cet espace est complet et que la norme sur cet espace peut être induite par un produit intérieur (pensez au produit scalaire familier danslpp=2 ), donc c'est un peu plus agréable de travailler avec.Rn


4

Voici quelques raisons:

  1. Il est lié d'une manière très spéciale au produit intérieur: c'est sa propre norme double (c'est-à-dire qu'il est "auto-dual").
    Cela signifie que, si vous considérez tous les vecteurs à l'intérieur de la boule d'unité , leur produit intérieur maximal avec tout vecteur z est la norme 2 de z lui-même. De façon moins imaginaire, il satisfait la propriété que x 2 2 = x x . Aucune autre norme p ne se comporte de cette façon.2z2zx22=xxp

  2. Il a un gradient lisse très pratique:

    x f(x)22=2 f(x)f(x)
    Vous ne pouvez vraiment pas battre ça!

2

Bien qu'il puisse y avoir beaucoup plus de raisons, AFAIK p = 2 est préféré pour les raisons suivantes:

  • Mesure de similitude / dissimilarité: Pour p = 2, la norme euclidienne donne une mesure de similitude ou de dissimilarité entre deux vecteurs qui peut ensuite être utilisée pour obtenir un meilleur aperçu des données. Des réponses plus détaillées à ce sujet peuvent être trouvées ici .
  • Régularisation: La norme L2 est utilisée pour la régularisation dans l'apprentissage automatique et est préférée pour deux raisons: 1) Elle est facilement différenciable 2) Avec la régularisation L2, les poids ont tendance à diminuer proportionnellement aux poids. La régularisation L2 pénalise donc davantage les poids les plus importants par rapport aux poids plus petits.

1

Les erreurs quadratiques sous les modèles linéaires sont souvent préférées en raison de:

  • la relation à l'orthogonalité, qui se comporte bien par rapport à certains phénomènes aléatoires considérés comme du bruit (non corrélés)
  • L1
  • il fournit des algorithmes d'optimisation exploitables lorsque la dérivée se transforme en systèmes linéaires

L11p0<p<1 pour imposer plus de clarté, au prix de "perdre" la convexité.

000p1p0p0

1/21/2

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.