IBM 显然已经开源了他们的 ICU 源代码以支持 Unicode 和全球化,其中一部分是一个文本边界定位器,用于检测文本中的中断位置。
但是,中断检测依赖于规则,我无法在任何地方找到规则文件。
我在哪里可以获得 和 的分词规则文本com.ibm.icu.text.BreakIterator
文件com.ibm.icu.text.RuleBasedBreakIterator
?
http://www.icu-project.org/包含 IBM 在开源许可下发布的 icu4j 的所有源代码。这包括边界分析的东西,比如基于字典和规则的中断迭代器。
但是,似乎没有适合阅读的文本文件。我不确定 IBM 是否会将他们的规则集作为开源发布(因为这对他们来说是一个相当大的技术优势)。相反,我们的想法是创建自己的规则集,这里有一个教程。
同一教程指出,您可以通过运行转储默认规则:
RuleBasedBreakIterator rbbi = (RuleBasedBreakIterator)
BreakIterator.getWordInstance(Locale.getDefault());
String defaultRules = rbbi.toString();