Unicode est une norme pour l'encodage, la représentation et la manipulation de texte avec l'intention de prendre en charge tous les caractères requis pour un texte écrit incorporant tous les systèmes d'écriture, symboles techniques et ponctuation.
Je regarde un algorithme qui peut mapper entre les caractères avec des signes diacritiques ( tilde , circonflexe , caret , tréma , caron ) et leur caractère "simple". Par exemple: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> …
Fermé. Cette question ne respecte pas les directives de Stack Overflow . Il n'accepte pas les réponses actuellement. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle soit pertinente pour Stack Overflow. Fermé il y a 3 ans . Améliorez cette question Nous avons donc la feuille …
Ce qui suit remplacera les caractères de contrôle ASCII (raccourci pour [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Ce qui suit remplacera tous les caractères ASCII non imprimables (raccourci pour [\p{Graph}\x20]), y compris les caractères accentués: my_string.replaceAll("[^\\p{Print}]", "?"); Cependant, ni l'un ni l'autre ne fonctionne pour les chaînes Unicode. Quelqu'un a-t-il un bon moyen …
Je suis nouveau dans la programmation Windows et après avoir lu le livre Petzold, je me demande: est-ce toujours une bonne pratique d'utiliser le TCHARtype et la _T()fonction pour déclarer des chaînes ou si je devrais simplement utiliser les chaînes wchar_tet L""dans le nouveau code? Je ciblerai uniquement Windows 2000 …
Le code suivant est très connu pour convertir les caractères accentués en texte brut: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); J'ai remplacé ma méthode "faite à la main" par celle-ci, mais je dois comprendre la partie "regex" de replaceAll 1) Qu'est-ce que "InCombiningDiacriticalMarks"? 2) Où en est la documentation? (et similaires?) Merci.
Je suis en train de compresser des fichiers JavaScript et le compresseur se plaint que mes fichiers contiennent du caractère. Comment puis-je rechercher ces caractères et les supprimer?
Si j'exécute le programme Perl suivant: perl -e 'use utf8; print "鸡\n";' Je reçois cet avertissement: Wide character in print at -e line 1. Si j'exécute ce programme Perl: perl -e 'print "鸡\n";' Je ne reçois pas d'avertissement. Je pensais qu'il use utf8était nécessaire d'utiliser des caractères UTF-8 dans un …
J'ai vu beaucoup de gens dans la communauté C ++ (en particulier ## c ++ sur freenode) se plaindre de l'utilisation de wstringsand wchar_t, et de leur utilisation dans l'API Windows. Qu'est-ce qui ne va pas exactement avec wchar_tet wstring, et si je veux soutenir l'internationalisation, quelles sont les alternatives …
Le code suivant: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); donne une variable textqui contient, entre autres, la chaîne "$ κ $ -espace de Minkowski, champ scalaire et problème de l'invariance de Lorentz" Cependant, lorsque je visite cette URL dans Firefox, j'obtiens $ κ $ -Espace de Minkowski, champ scalaire et problème …
J'ai du texte qui utilise la ponctuation Unicode, comme les guillemets doubles à gauche, les guillemets simples à droite pour l'apostrophe, etc., et j'en ai besoin en ASCII. Python a-t-il une base de données de ces caractères avec des substituts ASCII évidents pour que je puisse faire mieux que de …
J'ai un problème avec le codage de la variable de chemin et son insertion dans la base de données SQLite . J'ai essayé de le résoudre avec la fonction d' encode ("utf-8") qui n'a pas aidé. Ensuite, j'ai utilisé la fonction unicode () qui me donne le type unicode . …
Existe-t-il une liste ou une bibliothèque contenant toutes les ponctuations que nous pourrions rencontrer couramment? Normalement string.punctuation, j'utilise , mais certains caractères de ponctuation n'y sont pas inclus, par exemple: >>> "'" in string.punctuation True >>> "’" in string.punctuation False
J'ai joué avec JS et je n'arrive pas à comprendre comment JS décide quels éléments ajouter au tableau créé lors de l'utilisation Array.from(). Par exemple, l'emoji 👍 suivant a un lengthde 2, car il est composé de deux points de code, mais Array.from()traite ces deux points de code comme un, …
La question est simple: j'ai une chaîne str, comment puis-je vérifier s'il stry a un seul emoji et rien d'autre? De plus, je préférerais ne pas utiliser une autre bibliothèque. Match "🍎", "⛹🏿♂️", "3️⃣"mais pas "🍓a", "𝕒","🍌🍀" J'ai du mal à trouver une solution mais voici certaines choses que j'ai …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.