3

使用 Java 分割日文文本的最佳方法是什么?例如,对于以下文本:

こんにちは。私の名前はオバマです。私はアメリカに行く。

我需要以下输出:

こんにちは
私の名前はオバマです
私はアメリカに行く

可以使用黑字吗?

4

1 回答 1

4

您可以使用 java.text.BreakIterator。

String TEXT = "こんにちは。私の名前はオバマです。私はアメリカに行く。";
BreakIterator boundary = BreakIterator.getSentenceInstance(Locale.JAPAN);
boundary.setText(TEXT);
int start = boundary.first();
for (int end = boundary.next();
     end != BreakIterator.DONE;
     start = end, end = boundary.next()) {
     System.out.println(TEXT.substring(start, end));
}

这个程序的输出是:

こんにちは。
私の名前はオバマです。
私はアメリカに行く。

您不能使用 Kuromoji 来查找日语句子边界。它可以将句子拆分为单词。

于 2018-09-04T00:47:19.463 回答