我正在使用 Solr 的 facet 功能来检索我的文档中最常见的索引,我想知道是否可以将相似术语的频率“合并”在一起(例如,借助 levenshtein 距离)。
举个例子: “通讯技能”出现200次,“通讯技能”出现100次,是否可以带Solr返回“通讯技能:300次”?
谢谢您的帮助 !
Solr 在您插入的内容上创建构面。因此,如果您插入Communication skills并且Communicating skills它不知道是否合并它。
但是,您可以做的是使用SynonymFilterFactory您必须在文件中定义它Communication skills的同义词的地方Communicating skills,并且 Solr 将替换Communicating skills为Communication skills.
编辑
您也可以使用PorterStemFilterFactory来词干,但是,这适用于单个标记,因此这意味着分解为标记,然后进行词干,然后再将它们连接回来。由于词干,这也具有不利影响。