Nous créons un site Web qui collectera des informations de localisation (points) auprès des utilisateurs. Nous explorons des techniques pour préserver la confidentialité de l'emplacement des utilisateurs (par exemple, souvent, les utilisateurs partageront leur adresse personnelle, qui est sensible). Une option qui m'est venue à l'esprit est d'obscurcir ou de «hacher» les points avant de les stocker dans la base de données, éliminant ainsi la nécessité de stocker ces données sensibles.
Nos exigences de base sont, je crois:
Étant donné un seul point obscurci, il n'est pas possible de dériver le point d'origine dans (disons) un kilomètre environ, même compte tenu de toutes les métadonnées associées au point (c.-à-d., Supposer que la base de données entière est compromise).
Étant donné un ensemble arbitrairement grand de points obscurcis correspondant au même point d'origine, il n'est toujours pas possible de dériver le point d'origine. (Par exemple, une technique simple consiste à ajouter un vecteur aléatoire au point d'origine, mais si vous le faites suffisamment de fois, les points masqués se regrouperont autour du point d'origine.)
Ce serait bien si diverses propriétés statistiques étaient préservées, bien que je ne sache pas quelles propriétés sont importantes à ce stade. Par exemple, je préférerais que les points obscurcis se dispersent de manière "naturelle" plutôt que de s'accumuler dans une grille. Cependant, la confidentialité est plus importante que cela.