java - 分词规则文件

Question

IBM 显然已经开源了他们的 ICU 源代码以支持 Unicode 和全球化，其中一部分是一个文本边界定位器，用于检测文本中的中断位置。

但是，中断检测依赖于规则，我无法在任何地方找到规则文件。

我在哪里可以获得和的分词规则文本com.ibm.icu.text.BreakIterator文件com.ibm.icu.text.RuleBasedBreakIterator？

score 2 · Accepted Answer

http://www.icu-project.org/包含 IBM 在开源许可下发布的 icu4j 的所有源代码。这包括边界分析的东西，比如基于字典和规则的中断迭代器。

但是，似乎没有适合阅读的文本文件。我不确定 IBM 是否会将他们的规则集作为开源发布（因为这对他们来说是一个相当大的技术优势）。相反，我们的想法是创建自己的规则集，这里有一个教程。

同一教程指出，您可以通过运行转储默认规则：

RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
    BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();

1 回答 1