unicode - 印地语重音字符的 unicode 范围是多少？

Question

我正在尝试收集印地语字符集中所有类似“o”的形状的 Unicode 列表。事实上，使用单独的字符来表示重音的任何字符（任何语言）的列表会更好。

我打算在 RegExp 中使用这个 unicode-list。

我一直在尝试通过在输入文本字段中输出它们来编辑字符范围列表，但是编辑此文本会导致奇怪的问题（键盘光标没有放在正确的字符上，选择突然消失/错误地扭曲......在换句话说……印地语地狱！）

我也用 Notepad++ 试过这个，但虽然它反应更快，但它最终还是像在 Flash Player 文本字段中那样对我产生了影响。这似乎尤其是在删除 [] 块（空值？）字符时发生。其中一些会引发奇怪的行为。

无论如何，我想要的只是一个口音列表。一些例子如下图所示（但我需要所有口音）：

在此处输入图像描述

谢谢！

score 6 · Accepted Answer

您可以在此处找到包含按语言分组的 unicode 范围列表的 pdf：http: //unicode.org/charts/

对于印地语，您可能需要Devanagari或Devanagari Extended。

score 3 · Accepted Answer

这是天城文组合标记的字符类：

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的梵文块（不是扩展的梵文）。

score 0 · Accepted Answer

如果您想要完整的集合（适用于所有语言），您可以有问题地做到这一点。您从ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt的 Unicode 日期文件开始，由 TR-44 ( http://unicode.org/reports/tr44/#Property_Definitions描述)

您可以使用 Canonical_Combining_Class 字段（参见http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values）过滤您想要的确切字符。不能更精确，因为“重音”有点模糊 :-) 您甚至可能还需要查看 General_Category 才能正确过滤（并排除某些标记、符号或标点符号）。

这样做的脚本肯定比试图弄乱文本编辑器更好。组合字符的特点之一是它们组合在一起 :-) 所以你可能会得到各种令人费解的结果（像这样：http ://www.siao2.com/2006/02/17/533929.aspx :-)

unicode - 印地语重音字符的 unicode 范围是多少？

3 回答 3

Related

Reference