我正在使用 ICU4C 音译 CJK。我想知道是否可以在 ICU 中进行分词,将中文文本拆分为根据某些分词标准定义的单词序列。
例如,当我尝试音译时:
直接输出html代码而不是作为函数返回值代后处理
使用
Transliterator* myTrans =
Transliterator::createInstance("zh-Latin",UTRANS_FORWARD, err);
UnicodeString str;
str.setTo("直接输出html代码而不是作为函数返回值代后处理");
myTrans->transliterate(str);
str.toUTF8String(st);
std::cout << st << std::endl;
我得到以下输出:
zhí jiē shū chū html dài mǎ ér bù shì zuò wèi hán shù fǎn huí zhí dài hòu chù lǐ
检查在线拼音工具似乎非常好,但我的问题是ICU的字符一个一个音译。不过,我正在寻找的更像是下面的文字(我不懂任何中文,所以下面的文字可能没有任何意义,但它应该展示我感兴趣的输出类型) :
zhíjiē shūchū html dàimǎér bùshì zuò wèihán shùfǎn huízhídài hòu chùlǐ
有人告诉我ICU 50 能够进行分词,但我在他们的网页上也找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做,或者您是否有任何关于如何做的好链接。