java - 令牌跳过空格？

Question

好的，我已经问了另一个问题，我已经解决了这个问题，但这里是我想要做的事情的简要说明：我希望能够从文本文件中提取文本作为标记 - 例如，假设我有包含以下句子的文本文件：

这是一家不错的餐厅，

相信我！

我想把它的内容提取为“tokens”——例如，一个token是“It's”，下一个token是“”，之后是“a”，然后是“”，然后是“good” ，然后是“餐厅”，然后是“，”和“\n”，然后是“相信”、“”、“我”、“！”。所以我想一种说法是标记要么是单词，要么不是单词。

到目前为止，这是我的代码：

/**
* Returns the next token, or throws a NoSuchElementException if none remain.
*/
public Token next() {
  if (c == -1) {
        throw new NoSuchElementException();
    }

  Writer sw=new CharArrayWriter();
  boolean trf=false;
  try {
        while ( c != -1 && isWordCharacter(c) ) {
                sw.write(c);
                c = r.read();
                trf=true;
        }
        while ( c != -1 && !isWordCharacter(c)) {
            if (Character.isWhitespace(c)&&!(trf==true)){
                sw.write(c);
                c=r.read();
                }
            else if (Character.isWhitespace(c)&&(trf==true)){
                c=r.read();
            }
            else{
                sw.write(c);
                c = r.read();

            }
        }
    } catch (IOException e) {
        c = -1;
        return new Token(trf, sw.toString());
    }
    return new Token (trf, sw.toString());
}

问题是我跳过了空格，所以我没有得到“It's”、“”、“a”、“”、“good”等，而是得到“It's”、“a”、“good”而不将空格作为令牌。有没有人有什么问题的提示？谢谢！

score 0 · Accepted Answer

做就是了：

StringTokenizer str = new StringTokenizer(sentence);
ArrayList<String> arr = new ArrayList<String>();
while(str.hasMoreTokens())
{
    //arr.add(" "); Be careful to add this only after the first word
    arr.add(str.nextToken());
}

" "在每个标记之后添加包含的逻辑。它很简单；）

score 0 · Accepted Answer

这是参考的链接。
StringTokenizer(String str, String delim, boolean returnDelims)

正如最后一个参数所暗示的，它也会返回分隔符。

StringTokenizer str = new StringTokenizer(sentence," \n\r",true);

while(str.hasMoreTokens())
{
    System.out.println(str.nextToken());
}

这应该给你你想要的。希望能帮助到你。

java - 令牌跳过空格？

2 回答 2

Related

Reference