我想用 Lucene 获得一些经常出现的短语。我从 TXT 文件中获取了一些信息,并且由于没有短语信息,例如“信息检索”被索引为两个单独的单词,我失去了很多上下文。
获得这样的短语的方法是什么?我在互联网上找不到任何有用的东西,感谢所有建议、链接、提示,尤其是示例!
编辑:我只按标题和内容存储我的文件:
Document doc = new Document();
doc.add(new Field("name", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("text", fReader, Field.TermVector.WITH_POSITIONS_OFFSETS));
因为对于我所做的最重要的是文件的内容。标题通常根本不是描述性的(例如,我有许多 PDF 学术论文的标题是代码或数字)。
我迫切需要从文本内容中索引出现最多的短语,刚才我看到这种简单的“词袋”方法效率不高。