在 SOLR 中,我有一个包含id, words (indexed), raw_text
字段的文档。我想以words
这种方式搜索字段:单词是文章的不定式(或说关键字)。对于解析和词形还原(词干),我使用了另一个工具,所以这不是问题的重点。
例如:对于这两篇文章(文本),单词将是:
1昨天我没有去上班,因为是假期。
话:昨天上班,因为假期
2明天我早上去上班,晚上去购物。
话:明天上班早上晚上去商店
3个 字:明天上班
在搜索“go”时,我希望首先检索2(更相关),因为“go”-s 比1多。此外,我想对一堆单词使用更长的查询,并且大部分时间都检索到包含大部分单词的文章。
例如:搜索:“去明天工作”将返回2比3更相关,因为有两个“去”-s 与只有三分之一相反
那么问题来了:我应该如何存储words
?多值还是单值?应该使用什么字段类型?
谢谢!