我正在尝试使用以下代码标记文本文件:
String fileContent = "";
String fileContentTokens[];
try{
fileContent = new Scanner(new File(fname)).useDelimiter("\\Z").next();
} catch(Exception ex) {
System.out.println(ex.getMessage());
}
fileContent = fileContent.replaceAll("\\s*([,.?!\"'()-:*;])\\s*", " $1 ");
//System.out.println(fileContent);
fileContentTokens = fileContent.split(" ");
问题是标记没有正确形成,我的意思是有些单词仍然带有引号,有些单词仍然带有撇号。上面的代码应该在每个标点符号之间放置空格,因此它不会附加到它自己的单词上。例如:“那很酷”应该是“那很酷”。但出于某种原因,它没有这样做。它只是为一些单词而不是全部这样做。