java - StandardAnalyzer - Apache Lucene

Question

我实际上正在开发一个系统，您可以在其中将一些文本文件输入到 StandardAnalyzer，然后该文件的内容被 StandardAnalyzer 的输出替换（它标记并删除所有停用词）。到目前为止，我开发的代码是：

    File f = new File(path);

    TokenStream stream = analyzer.tokenStream("contents", 
            new StringReader(readFileToString(f)));

    CharTermAttribute charTermAttribute = stream.getAttribute(CharTermAttribute.class);

        while (stream.incrementToken()) {
            String term = charTermAttribute.toString();
            System.out.print(term);
        }

           //Following is the readFileToString(File f) function
     StringBuilder textBuilder = new StringBuilder();
     String ls = System.getProperty("line.separator");
     Scanner scanner = new Scanner(new FileInputStream(f));

     while (scanner.hasNextLine()){
          textBuilder.append(scanner.nextLine() + ls);
      }
      scanner.close();
    return textBuilder.toString();

readFileToString(f) 是一个将文件内容转换为字符串表示形式的简单函数。我得到的输出是每个单词都删除了空格或新行。有没有办法在分析器输出后保留原始空格或换行符，以便我可以用 StandardAnalyzer 的过滤内容替换原始文件内容并以可读形式呈现？

score 0 · Accepted Answer

标记器保存术语位置，因此理论上您可以查看位置以确定每个标记之间有多少个字符，但它们不保存标记之间的数据。所以你可以取回空格，但不能取回换行符。

如果您对 JFlex 感到满意，您可以修改标记器以将换行符视为标记。不过，这可能比您从中获得的任何收益都难。

java - StandardAnalyzer - Apache Lucene

1 回答 1

Related

Reference