Minimiser la somme de l'écart absolu ( distance

15

J'ai un ensemble de données $x_{1}, x_{2}, \ldots, x_{k}$ et je veux trouver le paramètre $m$ tel qu'il minimise la somme

\sum_{i = 1}^{k} | m - x_{i} | .

$\sum_{i=1}^{k}\big|m-x_i\big|.$ C'est

min_{m} \sum_{i = 1}^{k} | m - x_{i} | .

$\min_{m}\sum_{i=1}^{k}\big|m-x_i\big|.$

optimization convex-optimization

— mai nouveau
source

2

Pourriez-vous développer un peu?

— Geoff Oxberry

Dans ce cas, la solution ne serait-elle pas alors le milieu entre les valeurs maximales et minimales?

— Paul

@Paul la médiane peut minimiser la somme mais veut savoir comment cela peut être fait analytiquement, en particulier la minimisation l1

— mai

@kadu c'est vrai, la médiane est la solution. Le calcul analytique de la médiane est trivial; il suffit de trier puis de prendre la valeur moyenne.

— David Ketcheson

22

Vous demandez probablement une preuve que la médiane résout le problème? Eh bien, cela peut être fait comme ceci:

L'objectif est linéaire par morceaux et donc différenciable sauf pour les points . Quelle est la pente de l'objectif est un certain point ? Eh bien, la pente est la somme des pentes des mappages et c'est soit (pour ) ou (pour ). Par conséquent, la pente indique combien de sont plus petits que $m=x_i$ $m\neq x_i$ $m\mapsto |m-x_j|$ $+1$ $m>x_j$ $-1$ $m<x_j$ $x_i$ $m$ . Vous voyez que la pente est nulle s'il y a autant de plus petits et plus grands que (pour et nombre pair de ). S'il y a un nombre impair de , alors la pente est de gauche de la "plus moyenne" et droite de celle-ci, donc la plus moyenne est la minimale. $x_i$ $m$ $x_i$ $x_i$ $-1$ $+1$

— Poignard
source

16

Une généralisation de ce problème à plusieurs dimensions est appelée le problème de la médiane géométrique . Comme le souligne David, la médiane est la solution pour le cas 1-D; là, vous pourriez utiliser des algorithmes de sélection de recherche médiane , qui sont plus efficaces que le tri. Les tris sont tandis que les algorithmes de sélection sont ; les tris ne sont plus efficaces que si plusieurs sélections sont nécessaires, auquel cas vous pouvez trier (de manière coûteuse) une fois, puis effectuer des sélections répétées dans la liste triée. $O(n\log n)$ $O(n)$

Le lien avec le problème géométrique médian mentionne des solutions pour des cas multidimensionnels.

— Geoff Oxberry
source

6

La solution explicite en termes de médiane est correcte, mais en réponse à un commentaire de mayenew, voici une autre approche.

Il est bien connu que les problèmes de minimisation de général, et le problème affiché en particulier, peuvent être résolus par programmation linéaire. $\ell^1$

La formulation LP suivante fera l'affaire pour l'exercice donné avec des inconnues : $z_i,m$

tel que:

m i n \sum z_{i}

$min \sum z_i$

z_{i} \geq m - x_{i}

$z_i \ge m - x_i$

z_{i} \geq x_{i} - m

$z_i \ge x_i - m$

$z_i$ $|x_i - m|$

— hardmath
source

2

La méthode d'analyse convexe surpuissante pour le montrer est de prendre des sous-gradients. En fait, cela équivaut au raisonnement utilisé dans certaines des autres réponses concernant les pentes.

$\left|m-x_i\right|$

$m<x_i$

$m=x_i$

$m>x_i$

$m$ $x_1,\ldots x_k$

— cjordan1
source

0

Nous sommes essentiellement après:

\arg min_{m} \sum_{je = 1}^{N} | m - X_{je} |

$\arg \min_{m} \sum_{i = 1}^{N} \left| m - {x}_{i} \right|$

Il faut remarquer que $\frac{\mathrm{d} \left | x \right | }{\mathrm{d} x} = \operatorname{sign} \left( x \right)$ (Being more rigorous would say it is a Sub Gradient of the non smooth ${L}_{1}$ Norm function).
Hence, deriving the sum above yields $\sum_{i = 1}^{N} \operatorname{sign} \left( m - {x}_{i} \right)$ .
This equals to zero only when the number of positive items equals the number of negative which happens when $m = \operatorname{median} \left\{ {x}_{1}, {x}_{2}, \cdots, {x}_{N} \right\}$ .

One should notice that the median of a discrete group is not uniquely defined.
Moreover, it is not necessarily an item within the group.

— Royi
source