BM25 是一种基于词条的排名算法。现在也有基于概念的算法。
BM25 如果是基于术语的信息检索的最新技术;但是,存在一些基于术语无法克服的挑战,例如关联同义词、匹配缩写词或识别同音词。以下是示例:
同义词:“购买”和“购买”
反义词:“教授”和“教授”。
谐音:
- 弓——一根长有马毛的木棍,用来演奏某些弦乐器,如小提琴
- 鞠躬——在腰部向前弯曲以表示敬意(例如“鞠躬”)
为了处理这些问题,一些正在使用基于概念的模型,例如这篇文章和 这篇文章。
基于概念的模型大多使用字典或外部术语来识别概念,并且每个模型都有自己的概念表示或加权算法。