问题标签 [unicode-normalization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - UTF8 是单射映射吗?
我们编写一个C++
应用程序,需要知道这一点:
文本编码是否是UTF8
从字节到字符的单射映射,这意味着每个字符(字母......)都只以一种方式编码?因此,例如字母 'Ž' 不能同时编码为 3231 和 32119。
php - 在 PHP 中根据 W3C 规范化 Unicode
在W3C 验证器中验证我网站的 HTML 代码时,我收到以下警告:
我在 PHP 5.3.x 中开发它,所以我可以使用Normalizer类。
所以,为了解决这个问题,我应该Normalizer::normalize($output)
在显示用户输入的任何输入(例如评论)时使用Normalizer::normalize($input)
,还是应该在将任何用户输入存储到数据库之前使用它?
tl;博士:我应该在将用户输入存储到数据库之前还是仅在显示时使用Unicode 规范化?
.net - 规范化 Unicode 字符串以获取其规范表示
鉴于例如"à"
(一个 Unicode 字符)也可以编码为"\u0300a"
(两个 Unicode 字符,即组合重音 (U+0300) 后跟一个 a),.NET 中是否有功能来规范化字符串,以便后者是改成前者?
我相信前者被认为是规范的表示。我的特殊问题是,我见过某些浏览器无法正确显示后者的情况,但这在其他情况下也很有用。
php - 使用 PHP 和 MySQL,如何正确地将智能引号写入数据库?
我有一个带有CLEditor 富文本控件的 PHP 网站。当我尝试将欧元和英镑写入数据库时,该字符运行良好,因为我在包含页面 HTML、富文本控件 IFRAME HTML 和 MySQL 表排序规则中将字符集设置为 UTF-8。在这方面一切都很好。但是,当我尝试编写智能引号时,我最终会在数据库中看到以下输出:
(如果在您的浏览器上方没有正确显示,则测试词的前面有拉丁语 a、欧元符号和小 AE 符号,后面是拉丁语 a 和欧元符号。 )
当我使用 PHP 从数据库中读取该值以将其显示在页面上时,它最终显示为带有问号的黑色菱形以及一些其他拉丁字符。
我应该怎么做才能解决这个问题?
c++ - 规范的 Unicode 字符串形式
我有一个 Unicode 字符串,例如编码为UTF8
. Unicode 中的一个字符串可以有几个字节表示。我想知道,是否有或可以创建任何规范(规范化)形式的 Unicode 字符串——所以我们可以例如将这些字符串与memcmp(3)
等进行比较。例如 ICU 或任何其他C/C++
库可以做到这一点吗?
python - 在 Python 中将 unicode 文本规范化为文件名等
是否有任何独立的解决方案可以将国际 unicode 文本标准化为 Python 中的安全 ID 和文件名?
例如My International Text: åäö
转向my-international-text-aao
plone.i18n确实做得很好,但不幸的是,它依赖于zope.security
andzope.publisher
和其他一些包,使其依赖脆弱。
java - 在java中转换为utf-8
我只有字符串\u0130smail
,我想将其转换为 İsmail 并转换
我试过了
它起作用了,但是每当我"\u0130smail"
从数据库或互联网上获取字符串时,它都不会给出正确的结果。
也没有用。