c++ - 使用 ICU 进行分词

Question

我正在使用 ICU4C 音译 CJK。我想知道是否可以在 ICU 中进行分词，将中文文本拆分为根据某些分词标准定义的单词序列。

例如，当我尝试音译时：

直接输出html代码而不是作为函数返回值代后处理

使用

Transliterator* myTrans = 
                  Transliterator::createInstance("zh-Latin",UTRANS_FORWARD, err);
UnicodeString str;
str.setTo("直接输出html代码而不是作为函数返回值代后处理");
myTrans->transliterate(str);
str.toUTF8String(st);
std::cout << st << std::endl;

我得到以下输出：

zhí jiē shū chū html dài mǎ ér bù shì zuò wèi hán shù fǎn huí zhí dài hòu chù lǐ

检查在线拼音工具似乎非常好，但我的问题是ICU的字符一个一个音译。不过，我正在寻找的更像是下面的文字（我不懂任何中文，所以下面的文字可能没有任何意义，但它应该展示我感兴趣的输出类型）：

zhíjiē shūchū html dàimǎér bùshì zuò wèihán shùfǎn huízhídài hòu chùlǐ

有人告诉我ICU 50 能够进行分词，但我在他们的网页上也找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做，或者您是否有任何关于如何做的好链接。

score 1 · Accepted Answer

“基于字典的迭代器”不是不同的 API。只需使用适当的语言环境 ID 创建一个 ICU 分词迭代器。

在 icu/source/samples/break 中有一个 ICU 附带的 C/C++ 示例

以下示例代码还显示了断字：http: //source.icu-project.org/repos/icu/icuapps/trunk/iucsamples/c/s24_brkw/s24_brkw.cpp http://source.icu-project.org/ repos/icu/icuapps/trunk/iucsamples/c/s23_brki/

可能是这样的：

  BreakIterator *wordIterator = BreakIterator::createWordInstance(Locale("zh"), status);
UnicodeString text = "Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language.";
  wordIterator->setText(text);
  int32_t breakCount = 0;
    int32_t start = wordIterator->first();
    for(int32_t end = wordIterator->next();
        end != BreakIterator::DONE;
        start = end, end = wordIterator->next())
    {
         breakCount++;
    }
  delete wordIterator;

score 0 · Accepted Answer

这是我从 ICU 的邮件列表中得到的回复：

“还有一个全新的在线演示正在进行中，它会在选择中文时进行分段并将您的文本拆分为以下内容。希望这会有所帮助。”

直接
输出
html
代码
而不是
作为
函数
返回
值
代
后
处理

这将解决我的问题，我需要音译此输出以获取我要查找的内容。

c++ - 使用 ICU 进行分词

2 回答 2

Related

Reference