问题标签 [unicode-normalization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
1266 浏览

unicode - 标准化 Unicode 数据以进行索引(对于多字节语言):哪些产品可以做到这一点?有 Lucene/Hadoop/Solr 吗?

我有几个(超过 100 万)个文档、电子邮件等,我需要对其进行索引和搜索。每个文档都可能具有不同的编码。

我需要学习和理解哪些产品(或产品配置)才能正确执行此操作?

我的第一个猜测是基于 Lucene 的东西,但这是我正在学习的东西。我的主要愿望是尽快开始耗时的编码过程,以便我们可以同时构建搜索前端。这可能需要对双字节字符进行某种规范化。

任何帮助表示赞赏。

0 投票
3 回答
308 浏览

unicode - Unicode 中是否存在每个“字符”只是一个代码点的编码?

尝试重新表述:您能否将每个组合字符组合映射到一个代码点?

我是 Unicode 新手,但在我看来,没有编码、规范化或表示形式,在 Unicode 的每种情况下,一个字符都是一个代码点。这个对吗?

基本多语言平面也是如此吗?

0 投票
3 回答
2036 浏览

c# - 阿拉伯语问题 将 أً 替换为 ا

如何用普通的 alf 替换 alf bel tanween

0 投票
2 回答
4998 浏览

python - 如何在 Python 中将所有日文平假名转换为片假名字符?

从平假名和片假名图表来看,看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道工作已经在哪里完成?

0 投票
5 回答
11980 浏览

c++ - C/C++ 中的 Unicode 字符串规范化

我想知道如何在 C/C++ 中规范化字符串(包含 utf-8/utf-16)。在 .NET 中有一个函数String.Normalize

我过去使用过 UTF8-CPP,但它没有提供这样的功能。 ICU和 Qt 提供字符串规范化,但我更喜欢轻量级解决方案。

有什么“轻量级”的解决方案吗?

0 投票
7 回答
22903 浏览

php - 用于删除重音的 php iconv translit:不能正常工作?

考虑这个简单的代码:

它打印

而不仅仅是

你知道我做错了什么吗?


添加 setlocale 后没有任何变化

0 投票
2 回答
329 浏览

unicode - 用户期望和 Unicode 规范化

这是一个有点软的问题,如果有更好的地方,请随时告诉我。

我正在开发一些接受需要国际字符的密码的代码 - 所以我需要将输入的 unicode 字符串与存储的 unicode 字符串进行比较。很容易。

我的问题是——在这种情况下,国际字符集的用户通常期望规范化吗?我的谷歌搜索显示从“总是这样做”(http://unicode.org/faq/normalization.html)到“不要打扰”的一些意见冲突。不规范化有什么优点/缺点吗?(即,不太可能猜到密码等)

0 投票
1 回答
4306 浏览

forms - 哪个是更好的 Unicode 规范化形式?

我在 Dreamweaver 上有四个选项:C、D、KC、KD。我应该选择哪一个,为什么?

0 投票
2 回答
22255 浏览

html - 文本运行不在 Unicode 规范化表格 C 中

当我尝试验证我的网站时,我收到以下错误:

文本运行不在 Unicode 规范化表格 C 中

答:什么意思?

B:我可以用notepad++修复它吗?如何解决?

C:如果 B 不是,我如何使用免费工具(不是 Dreamweaver)来解决这个问题?

0 投票
2 回答
2836 浏览

mapping - 有没有办法将文本从 Unicode 简化为 ASCII?

对于每个 ASCII 字符,我需要的是一个等价的 Unicode 字符列表。

问题在于,当人们在文档中键入内容时,Microsoft Excel 和 Word 等程序会插入非 ASCII 双引号、单引号、破折号等。我想将此文本存储在“varchar”类型的数据库字段中,该字段需要单字节字符。

为了存储 ASCII(单字节)文本,其中一些 Unicode 字符可以被认为与特定 ASCII 字符等效或足够相似,因此将 Unicode 字符替换为等效的 ASCII 字符就可以了。

我想要一个像 MapToASCII 这样的简单函数,它将 Unicode 文本转换为 ASCII 等价物,允许我为与任何 ASCII 字符不相似的任何 Unicode 字符指定替换字符。