Quelqu'un connaît-il un bon logiciel d'anonymisation des données? Ou peut-être un package pour R qui fait l'anonymisation des données? Évidemment, ne pas s'attendre à une anonymisation non fissurable - je veux juste rendre les choses difficiles.
Quelqu'un connaît-il un bon logiciel d'anonymisation des données? Ou peut-être un package pour R qui fait l'anonymisation des données? Évidemment, ne pas s'attendre à une anonymisation non fissurable - je veux juste rendre les choses difficiles.
Réponses:
Le Cornell Anonymization Tookit est open source. Leur page de recherche contient des liens vers des publications associées.
Attention: sachez qu'il peut être très difficile d'anonymiser les données d'une manière qui empêche la ré-identification (anonymisation), sans perdre une grande partie de la valeur des données. Ce n'est pas une situation où vous pouvez simplement lancer un logiciel sans réfléchir. Protéger l'anonymat des gens nécessite une réflexion approfondie. Voir, par exemple, cet article pour une explication plus approfondie des raisons pour lesquelles ce n'est pas trivial.
Un exemple de mise en garde est le défi Netflix, où un ensemble de données apparemment anonymisé était en fait lié à l'identité des utilisateurs de Netflix - ou la publication d'enregistrements de recherche AOL anonymisés, dont beaucoup (les chercheurs ont découvert) pourraient encore être liés à individus grâce à une analyse plus sophistiquée. Un autre exemple vient du Massachusetts, où une commission d'assurance maladie a publié des données sur tous les employés de l'État, après les avoir anonymisées en supprimant les noms, adresses, SSN, etc. Cependant, un chercheur sur la confidentialité a découvert qu'il était encore possible de réidentifier des individuset, à titre de démonstration, a montré comment identifier les dossiers de santé du gouverneur. Elle a ensuite montré, par exemple, que la plupart des gens peuvent être identifiés de manière unique à partir de leur code postal (ou secteur de recensement), de leur date de naissance et de leur sexe. Il s'agissait d'histoires de personnes anonymisant assidûment les données; ils pensaient avoir fait un bon travail d'anonymisation, et ne réalisaient tout simplement pas à quel point ce problème était délicat. Ces histoires d'avertissement devraient vous donner une pause.
Pour ces raisons, je vous déconseille d'essayer d'anonymiser votre jeu de données par vous-même, si vous n'avez aucune expérience préalable dans ce domaine.
Important: les techniques nécessaires pour anonymiser les données dépendront probablement beaucoup du type de données dont vous disposez et du domaine d'application dans lequel vous travaillez. Malheureusement, vous n'avez pas fourni ces informations. Par conséquent, il est presque impossible de vous fournir de bons conseils sur la façon d'anonymiser votre ensemble de données.
J'imagine qu'il peut être tentant de voir cette réponse comme inutile, car au lieu de dire "soyez heureux, ne vous inquiétez pas, jetez simplement ce logiciel magique à vos données et vous n'avez pas à penser", je dis " attendez, c'est plus compliqué qu'il n'y paraît à première vue, faites attention ". Je réalise que ce message n'est peut-être pas très populaire, mais je pense que c'est un message que les gens doivent entendre.
Une approche consisterait à utiliser des filtres Bloom. Consultez le site Web du projet SAFELINK pour les programmes en Java et Python. Le papier expliquant la méthode est ici .
Il existe également une approche intéressante de l'anaonymisation des chaînes dans le contexte du couplage d'enregistrements à l' aide de n-grammes développé par ANU Data Mining Group . L'article avec la description et un exemple de code Python est disponible ici .