我正在使用 Solr 的 facet 功能来检索我的文档中最常见的索引,我想知道是否可以将相似术语的频率“合并”在一起(例如,借助 levenshtein 距离)。
举个例子: “通讯技能”出现200次,“通讯技能”出现100次,是否可以带Solr返回“通讯技能:300次”?
谢谢您的帮助 !
Solr 在您插入的内容上创建构面。因此,如果您插入Communication skills
并且Communicating skills
它不知道是否合并它。
但是,您可以做的是使用SynonymFilterFactory
您必须在文件中定义它Communication skills
的同义词的地方Communicating skills
,并且 Solr 将替换Communicating skills
为Communication skills
.
编辑
您也可以使用PorterStemFilterFactory
来词干,但是,这适用于单个标记,因此这意味着分解为标记,然后进行词干,然后再将它们连接回来。由于词干,这也具有不利影响。