我们有一个应用程序,用于在大量 MS Word 文档中标记用户选择。我们用一个或多个关键字标签标记这些选择,通常是标题标签。我们想要添加一个功能,即立即分析所选文本,并为标记器提供最可能的关键字和标题标签列表(基于现有的标记文本选择)
我们正在使用 SOLR 索引。有人告诉我,我们可以简单地将选定的文本作为查询本身发出来返回类似的选择。但是,所选文本的长度可能在 200 到 6000 个单词之间。一个 6000 字的查询在内存使用方面可能是个问题!
我认为我们可以做一些非常积极的停用词删除,以显着减少查询中的单词数量,只留下非常有意义的单词。在过去的 10 年里,我们一直在使用这个语料库,我们非常熟悉主题和使用的词汇,所以这对我们来说很容易。但问题是我们也使用同一个索引让普通用户搜索索引,如果我们删除了太多常用词,那么他们的正常查询可能无法正常工作(尤其是短语查询)。
我们还希望在更小的范围内提升包含查询文本的结果,而不是随意散布在整个文档中。
另一个问题是我们允许嵌套选择。外部选择在性质上可能更笼统,大约 5000 个字长,内部选择会更短,主题更具体。但是,由于两个选择都包含相同的文本,所以 SOLR 将它们都排名很高,而外部选择可能不那么相关
在过去的几天里,我一直在阅读 SOLR 查询解析器文档,看起来这应该是可行的,但我仍然不确定我需要做什么才能完成这项工作。任何建议将不胜感激。