4

我正在尝试收集印地语字符集中所有类似“o”的形状的 Unicode 列表。事实上,使用单独的字符来表示重音的任何字符(任何语言)的列表会更好。

我打算在 RegExp 中使用这个 unicode-list。

我一直在尝试通过在输入文本字段中输出它们来编辑字符范围列表,但是编辑此文本会导致奇怪的问题(键盘光标没有放在正确的字符上,选择突然消失/错误地扭曲......在换句话说……印地语地狱!)

我也用 Notepad++ 试过这个,但虽然它反应更快,但它最终还是像在 Flash Player 文本字段中那样对我产生了影响。这似乎尤其是在删除 [] 块(空值?)字符时发生。其中一些会引发奇怪的行为。

无论如何,我想要的只是一个口音列表。一些例子如下图所示(但我需要所有口音):

在此处输入图像描述

谢谢!

4

3 回答 3

6

您可以在此处找到包含按语言分组的 unicode 范围列表的 pdf:http: //unicode.org/charts/

对于印地语,您可能需要DevanagariDevanagari Extended

于 2012-03-01T20:55:31.047 回答
3

这是天城文组合标记的字符类:

[\u901\u902\u903\u93c\u93e\u93f\u940\u941\u942\u943
 \u944\u945\u946\u947\u948\u949\u94a\u94b\u94c\u94d
 \u951\u952\u953\u954\u962\u963]

这只是基本的梵文块(不是扩展的梵文)。

于 2012-03-01T21:48:33.317 回答
0

如果您想要完整的集合(适用于所有语言),您可以有问题地做到这一点。您从ftp://ftp.unicode.org/Public/6.1.0/ucd/UnicodeData.txt的 Unicode 日期文件开始,由 TR-44 ( http://unicode.org/reports/tr44/#Property_Definitions描述)

您可以使用 Canonical_Combining_Class 字段(参见http://unicode.org/reports/tr44/#Canonical_Combining_Class_Values)过滤您想要的确切字符。不能更精确,因为“重音”有点模糊 :-) 您甚至可能还需要查看 General_Category 才能正确过滤(并排除某些标记、符号或标点符号)。

这样做的脚本肯定比试图弄乱文本编辑器更好。组合字符的特点之一是它们组合在一起 :-) 所以你可能会得到各种令人费解的结果(像这样:http ://www.siao2.com/2006/02/17/533929.aspx :-)

于 2012-03-04T11:45:38.090 回答