有谁知道处理查找句子边界的 Java 库?我认为这将是一个智能 StringTokenizer 实现,它知道语言可以使用的所有句子终止符。
这是我使用 BreakIterator 的经验:
在这里使用示例:我有以下日语:
今日はパソコンを買った。高性能のマックは早い!とても快適です。
在 ascii 中,它看起来像这样:
\ufeff\u4eca\u65e5\u306f\u30d1\u30bd\u30b3\u30f3\u3092\u8cb7\u3063\u305f\u3002\u9ad8\u6027\u80fd\u306e\u30de\u30c3\u30af\u306f\u65e9\u3044\uff01\u3068\u3066\u3082\u5feb\u9069\u3067\u3059\u3002
这是我更改的示例的一部分: static void sentenceExamples() {
Locale currentLocale = new Locale ("ja","JP");
BreakIterator sentenceIterator =
BreakIterator.getSentenceInstance(currentLocale);
String someText = "今日はパソコンを買った。高性能のマックは早い!とても快適です。";
当我查看边界索引时,我看到了:
0|13|24|32
但是这些索引不对应于任何句子终止符。