我有一个包含 1-10 个句子的短语索引。较长的短语是更相关的结果,但由于词频较低,它们的得分低于所有 1 行。我想做的是提高词频的倒数,或者只是提高更长的文档。
我正在使用 C#、NEST 和 ElasticSearch,但我不确定如何使用原始 Lucene 来解决这个问题,所以任何事情都会有所帮助。
例子
如果我搜索“书面文章” ,像doc 2这样的短文档始终位于顶部,而像doc 1这样的好结果则位于底部。我怎样才能扭转这种局面?
文件 2
猫不会写文章
文件 1
这是一篇写得很好的文章。Lorem ipsum dolor sit amet,consectetur adipiscing elit。Quisque ornare sem ac arcu posuere viverra。整数 egestas pharetra nunc nec cursus。Nam rhoncus sem nec sem laoreet tincidunt。