0

IBM 显然已经开源了他们的 ICU 源代码以支持 Unicode 和全球化,其中一部分是一个文本边界定位器,用于检测文本中的中断位置。

但是,中断检测依赖于规则,我无法在任何地方找到规则文件。

我在哪里可以获得 和 的分词规则文本com.ibm.icu.text.BreakIterator文件com.ibm.icu.text.RuleBasedBreakIterator

4

1 回答 1

2

http://www.icu-project.org/包含 IBM 在开源许可下发布的 icu4j 的所有源代码。这包括边界分析的东西,比如基于字典和规则的中断迭代器。

但是,似乎没有适合阅读的文本文件。我不确定 IBM 是否会将他们的规则集作为开源发布(因为这对他们来说是一个相当大的技术优势)。相反,我们的想法是创建自己的规则集,这里有一个教程。

同一教程指出,您可以通过运行转储默认规则:

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
    BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();
于 2009-02-18T06:52:31.653 回答