J'ai un serveur de socket qui est censé recevoir des caractères valides UTF-8 des clients.
Le problème est que certains clients (principalement des pirates informatiques) envoient tous les mauvais types de données dessus.
Je peux facilement distinguer le client authentique, mais je me connecte aux fichiers de toutes les données envoyées afin de pouvoir les analyser plus tard.
Parfois, je reçois des caractères comme celui-ci œ
qui provoquent l' UnicodeDecodeError
erreur.
J'ai besoin de pouvoir faire la chaîne UTF-8 avec ou sans ces caractères.
Mettre à jour:
Pour mon cas particulier, le service de socket était un MTA et je m'attends donc à recevoir des commandes ASCII telles que:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
J'enregistrais tout cela dans JSON.
Ensuite, des gens sans bonnes intentions ont décidé de vendre toutes sortes de déchets.
C'est pourquoi pour mon cas spécifique, il est parfaitement correct de supprimer les caractères non ASCII.