问题标签 [unicode-normalization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
unicode - 标准化 Unicode 数据以进行索引(对于多字节语言):哪些产品可以做到这一点?有 Lucene/Hadoop/Solr 吗?
我有几个(超过 100 万)个文档、电子邮件等,我需要对其进行索引和搜索。每个文档都可能具有不同的编码。
我需要学习和理解哪些产品(或产品配置)才能正确执行此操作?
我的第一个猜测是基于 Lucene 的东西,但这是我正在学习的东西。我的主要愿望是尽快开始耗时的编码过程,以便我们可以同时构建搜索前端。这可能需要对双字节字符进行某种规范化。
任何帮助表示赞赏。
unicode - Unicode 中是否存在每个“字符”只是一个代码点的编码?
尝试重新表述:您能否将每个组合字符组合映射到一个代码点?
我是 Unicode 新手,但在我看来,没有编码、规范化或表示形式,在 Unicode 的每种情况下,一个字符都是一个代码点。这个对吗?
基本多语言平面也是如此吗?
c# - 阿拉伯语问题 将 أً 替换为 ا
如何用普通的 alf 替换 alf bel tanween
python - 如何在 Python 中将所有日文平假名转换为片假名字符?
从平假名和片假名图表来看,看起来应该可以将日文文本“规范化”为平假名或片假名。构建表并实现用于搜索/替换的字典/正则表达式表非常简单。有谁知道工作已经在哪里完成?
c++ - C/C++ 中的 Unicode 字符串规范化
我想知道如何在 C/C++ 中规范化字符串(包含 utf-8/utf-16)。在 .NET 中有一个函数String.Normalize。
我过去使用过 UTF8-CPP,但它没有提供这样的功能。 ICU和 Qt 提供字符串规范化,但我更喜欢轻量级解决方案。
有什么“轻量级”的解决方案吗?
php - 用于删除重音的 php iconv translit:不能正常工作?
考虑这个简单的代码:
它打印
而不仅仅是
你知道我做错了什么吗?
添加 setlocale 后没有任何变化
unicode - 用户期望和 Unicode 规范化
这是一个有点软的问题,如果有更好的地方,请随时告诉我。
我正在开发一些接受需要国际字符的密码的代码 - 所以我需要将输入的 unicode 字符串与存储的 unicode 字符串进行比较。很容易。
我的问题是——在这种情况下,国际字符集的用户通常期望规范化吗?我的谷歌搜索显示从“总是这样做”(http://unicode.org/faq/normalization.html)到“不要打扰”的一些意见冲突。不规范化有什么优点/缺点吗?(即,不太可能猜到密码等)
forms - 哪个是更好的 Unicode 规范化形式?
我在 Dreamweaver 上有四个选项:C、D、KC、KD。我应该选择哪一个,为什么?
html - 文本运行不在 Unicode 规范化表格 C 中
当我尝试验证我的网站时,我收到以下错误:
文本运行不在 Unicode 规范化表格 C 中
答:什么意思?
B:我可以用notepad++修复它吗?如何解决?
C:如果 B 不是,我如何使用免费工具(不是 Dreamweaver)来解决这个问题?
mapping - 有没有办法将文本从 Unicode 简化为 ASCII?
对于每个 ASCII 字符,我需要的是一个等价的 Unicode 字符列表。
问题在于,当人们在文档中键入内容时,Microsoft Excel 和 Word 等程序会插入非 ASCII 双引号、单引号、破折号等。我想将此文本存储在“varchar”类型的数据库字段中,该字段需要单字节字符。
为了存储 ASCII(单字节)文本,其中一些 Unicode 字符可以被认为与特定 ASCII 字符等效或足够相似,因此将 Unicode 字符替换为等效的 ASCII 字符就可以了。
我想要一个像 MapToASCII 这样的简单函数,它将 Unicode 文本转换为 ASCII 等价物,允许我为与任何 ASCII 字符不相似的任何 Unicode 字符指定替换字符。