La programmation unicode

12

Supprimer les signes diacritiques (ń ń ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ) des caractères Unicode

Je regarde un algorithme qui peut mapper entre les caractères avec des signes diacritiques ( tilde , circonflexe , caret , tréma , caron ) et leur caractère "simple". Par exemple: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> …

88 java unicode diacritics transliteration

5

Exemple de données de test UTF-8 vraiment bonnes, mauvaises [fermé]

Fermé. Cette question ne respecte pas les directives de Stack Overflow . Il n'accepte pas les réponses actuellement. Vous souhaitez améliorer cette question? Mettez à jour la question pour qu'elle soit pertinente pour Stack Overflow. Fermé il y a 3 ans . Améliorez cette question Nous avons donc la feuille …

88 unicode utf-8

8

Comment puis-je remplacer des caractères Unicode non imprimables en Java?

Ce qui suit remplacera les caractères de contrôle ASCII (raccourci pour [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Ce qui suit remplacera tous les caractères ASCII non imprimables (raccourci pour [\p{Graph}\x20]), y compris les caractères accentués: my_string.replaceAll("[^\\p{Print}]", "?"); Cependant, ni l'un ni l'autre ne fonctionne pour les chaînes Unicode. Quelqu'un a-t-il un bon moyen …

88 java string unicode

12

TCHAR est-il toujours pertinent?

Je suis nouveau dans la programmation Windows et après avoir lu le livre Petzold, je me demande: est-ce toujours une bonne pratique d'utiliser le TCHARtype et la _T()fonction pour déclarer des chaînes ou si je devrais simplement utiliser les chaînes wchar_tet L""dans le nouveau code? Je ciblerai uniquement Windows 2000 …

87 c++ c windows unicode wchar-t

2

Regex: qu'est-ce que InCombiningDiacriticalMarks?

Le code suivant est très connu pour convertir les caractères accentués en texte brut: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); J'ai remplacé ma méthode "faite à la main" par celle-ci, mais je dois comprendre la partie "regex" de replaceAll 1) Qu'est-ce que "InCombiningDiacriticalMarks"? 2) Où en est la documentation? (et similaires?) Merci.

86 java regex unicode

13

<0xEF, 0xBB, 0xBF> caractère apparaissant dans les fichiers. Comment les supprimer?

Je suis en train de compresser des fichiers JavaScript et le compresseur se plaint que mes fichiers contiennent du ï»¿caractère. Comment puis-je rechercher ces caractères et les supprimer?

86 file unicode utf-8 utf

6

Utilisation de 'use utf8;' me donne un 'caractère large dans l'impression'

Si j'exécute le programme Perl suivant: perl -e 'use utf8; print "鸡\n";' Je reçois cet avertissement: Wide character in print at -e line 1. Si j'exécute ce programme Perl: perl -e 'print "鸡\n";' Je ne reçois pas d'avertissement. Je pensais qu'il use utf8était nécessaire d'utiliser des caractères UTF-8 dans un …

86 perl unicode utf-8

2

Quel est le «problème» avec le C ++ wchar_t et wstrings? Quelles sont les alternatives aux caractères larges?

J'ai vu beaucoup de gens dans la communauté C ++ (en particulier ## c ++ sur freenode) se plaindre de l'utilisation de wstringsand wchar_t, et de leur utilisation dans l'API Windows. Qu'est-ce qui ne va pas exactement avec wchar_tet wstring, et si je veux soutenir l'internationalisation, quelles sont les alternatives …

86 c++ winapi unicode internationalization wstring

1

WebClient.DownloadString entraîne des caractères mutilés en raison de problèmes d'encodage, mais le navigateur fonctionne correctement

Le code suivant: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); donne une variable textqui contient, entre autres, la chaîne "$ Îº $ -espace de Minkowski, champ scalaire et problème de l'invariance de Lorentz" Cependant, lorsque je visite cette URL dans Firefox, j'obtiens $ κ $ -Espace de Minkowski, champ scalaire et problème …

85 .net unicode utf-8 webclient

4

Où est le «meilleur ASCII de Python pour cette base de données Unicode»?

J'ai du texte qui utilise la ponctuation Unicode, comme les guillemets doubles à gauche, les guillemets simples à droite pour l'apostrophe, etc., et j'en ai besoin en ASCII. Python a-t-il une base de données de ces caractères avec des substituts ASCII évidents pour que je puisse faire mieux que de …

85 python unicode ascii

3

Utilisation des fonctions unicode () et encode () en Python

J'ai un problème avec le codage de la variable de chemin et son insertion dans la base de données SQLite . J'ai essayé de le résoudre avec la fonction d' encode ("utf-8") qui n'a pas aidé. Ensuite, j'ai utilisé la fonction unicode () qui me donne le type unicode . …

83 python string sqlite unicode encoding

5

Ensemble complet de signes de ponctuation pour Python (pas seulement ASCII)

Existe-t-il une liste ou une bibliothèque contenant toutes les ponctuations que nous pourrions rencontrer couramment? Normalement string.punctuation, j'utilise , mais certains caractères de ponctuation n'y sont pas inclus, par exemple: >>> "'" in string.punctuation True >>> "’" in string.punctuation False

40 python string unicode

3

Quels personnages sont regroupés avec Array.from?

J'ai joué avec JS et je n'arrive pas à comprendre comment JS décide quels éléments ajouter au tableau créé lors de l'utilisation Array.from(). Par exemple, l'emoji 👍 suivant a un lengthde 2, car il est composé de deux points de code, mais Array.from()traite ces deux points de code comme un, …

38 javascript string unicode iterator

2

Existe-t-il un moyen de vérifier si une chaîne dans JS est un seul emoji?

La question est simple: j'ai une chaîne str, comment puis-je vérifier s'il stry a un seul emoji et rien d'autre? De plus, je préférerais ne pas utiliser une autre bibliothèque. Match "🍎", "⛹🏿‍♂️", "3️⃣"mais pas "🍓a", "𝕒","🍌🍀" J'ai du mal à trouver une solution mais voici certaines choses que j'ai …

20 javascript node.js regex unicode emoji

Questions marquées «unicode»