问题标签 [unicode-normalization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
20374 浏览

php - 什么是标准化的 UTF-8?

ICU 项目(现在也有一个PHP)包含帮助规范化 UTF-8 字符串所需的类,以便在搜索时更容易比较值。

但是,我试图弄清楚对应用程序意味着什么。例如,在哪些情况下我想要“规范等价”而不是“兼容性等价”,或者反之亦然?

0 投票
5 回答
501 浏览

c++ - UTF8 是单射映射吗?

我们编写一个C++应用程序,需要知道这一点:

文本编码是否是UTF8从字节到字符的单射映射,这意味着每个字符(字母......)都只以一种方式编码?因此,例如字母 'Ž' 不能同时编码为 3231 和 32119。

0 投票
2 回答
3643 浏览

php - 在 PHP 中根据 W3C 规范化 Unicode

W3C 验证器中验证我网站的 HTML 代码时,我收到以下警告:

我在 PHP 5.3.x 中开发它,所以我可以使用Normalizer类。

所以,为了解决这个问题,我应该Normalizer::normalize($output)在显示用户输入的任何输入(例如评论)时使用Normalizer::normalize($input),还是应该在将任何用户输入存储到数据库之前使用它?

tl;博士:我应该在将用户输入存储到数据库之前还是仅在显示时使用Unicode 规范化?

0 投票
1 回答
630 浏览

.net - 规范化 Unicode 字符串以获取其规范表示

鉴于例如"à"(一个 Unicode 字符)也可以编码为"\u0300a"(两个 Unicode 字符,即组合重音 (U+0300) 后跟一个 a),.NET 中是否有功能来规范化字符串,以便后者是改成前者?

我相信前者被认为是规范的表示。我的特殊问题是,我见过某些浏览器无法正确显示后者的情况,但这在其他情况下也很有用。

0 投票
1 回答
4666 浏览

php - PHP 5.3 找不到 normalizer_normalize()

我正在尝试使用 PHP 5.3 中引入的normalizer_normalize()函数(文档说),但是我不能使用它:

我检查了我的 PHP 版本,但它是 5.3:

我不明白为什么PHP找不到它?

0 投票
4 回答
3033 浏览

php - 使用 PHP 和 MySQL,如何正确地将智能引号写入数据库?

我有一个带有CLEditor 富文本控件的 PHP 网站。当我尝试将欧元和英镑写入数据库时​​,该字符运行良好,因为我在包含页面 HTML、富文本控件 IFRAME HTML 和 MySQL 表排序规则中将字符集设置为 UTF-8。在这方面一切都很好。但是,当我尝试编写智能引号时,我最终会在数据库中看到以下输出:

(如果在您的浏览器上方没有正确显示,则测试词的前面有拉丁语 a、欧元符号和小 AE 符号,后面是拉丁语 a 和欧元符号。 )

当我使用 PHP 从数据库中读取该值以将其显示在页面上时,它最终显示为带有问号的黑色菱形以及一些其他拉丁字符。

我应该怎么做才能解决这个问题?

0 投票
3 回答
1663 浏览

c++ - 规范的 Unicode 字符串形式

我有一个 Unicode 字符串,例如编码为UTF8. Unicode 中的一个字符串可以有几个字节表示。我想知道,是否有或可以创建任何规范(规范化)形式的 Unicode 字符串——所以我们可以例如将这些字符串与memcmp(3)等进行比较。例如 ICU 或任何其他C/C++库可以做到这一点吗?

0 投票
5 回答
7363 浏览

python - 在 Python 中将 unicode 文本规范化为文件名等

是否有任何独立的解决方案可以将国际 unicode 文本标准化为 Python 中的安全 ID 和文件名?

例如My International Text: åäö转向my-international-text-aao

plone.i18n确实做得很好,但不幸的是,它依赖于zope.securityandzope.publisher和其他一些包,使其依赖脆弱。

plone.i18n 适用的一些操作

0 投票
1 回答
2140 浏览

regex - 用普通数字替换 Unicode 数字下标或上标

0 投票
2 回答
2028 浏览

java - 在java中转换为utf-8

我只有字符串\u0130smail,我想将其转换为 İsmail 并转换

我试过了

它起作用了,但是每当我"\u0130smail"从数据库或互联网上获取字符串时,它都不会给出正确的结果。

也没有用。