我有一些文字;我想提取没有用标点符号分隔的单词对。这是代码:
//n-grams
Pattern p = Pattern.compile("[a-z]+");
if (n == 2) {
p = Pattern.compile("[a-z]+ [a-z]+");
}
if (n == 3) {
p = Pattern.compile("[a-z]+ [a-z]+ [a-z]+");
}
Matcher m = p.matcher(text.toLowerCase());
ArrayList<String> result = new ArrayList<String>();
while (m.find()) {
String temporary = m.group();
System.out.println(temporary);
result.add(temporary);
}
问题是它跳过了一些匹配。例如
“我的名字是詹姆斯”
,对于 n = 3,必须匹配
“我的名字是”和“名字是詹姆斯”
, 但它只匹配第一个。有没有办法解决这个问题?