我希望能够从文本文件中提取文本作为标记 - 例如,假设我有一个包含以下句子的文本文件:
这是一家不错的餐厅,
相信我!
我想将其内容提取为“令牌”-例如,一个令牌将是“It's”,下一个令牌将是“”,之后的一个将是“a”,然后是“”,然后是“good” ,然后是“餐厅”,然后是“,”和“\n”,然后是“相信”、“”、“我”、“!”。所以我想一种说法是标记要么是单词,要么不是单词。
这是我到目前为止所拥有的(我在程序的其他地方检查标记是否是一个单词,这个方法只返回下一个标记):
public Token next() {
if (c == -1) {
throw new NoSuchElementException();
}
Writer sw=new CharArrayWriter();
try {
while ( c != -1 && Character.isLetter(c) ) {
sw.write(c);
c = r.read();
}
while ( c != -1 && !Character.isLetter(c)) {
c = r.read();
}
} catch (IOException e) {
c = -1;
return null;
}
return null;
}
现在我将返回值设为“null”,因为我不确定如何使用 writer 将其导出为令牌。有人对此有任何提示吗?谢谢!