2

我有一个包含 1-10 个句子的短语索引。较长的短语是更相关的结果,但由于词频较低,它们的得分低于所有 1 行。我想做的是提高词频的倒数,或者只是提高更长的文档。

我正在使用 C#、NEST 和 ElasticSearch,但我不确定如何使用原始 Lucene 来解决这个问题,所以任何事情都会有所帮助。

例子

如果我搜索“书面文章” ,像doc 2这样的短文档始终位于顶部,而像doc 1这样的好结果则位于底部。我怎样才能扭转这种局面?

文件 2

猫不会写文章

文件 1

这是一篇写得很好文章。Lorem ipsum dolor sit amet,consectetur adipiscing elit。Quisque ornare sem ac arcu posuere viverra。整数 egestas pharetra nunc nec cursus。Nam rhoncus sem nec sem laoreet tincidunt。

4

1 回答 1

3

也许添加文件长度字段并增强它?

或者

您是否尝试过使用omitNorms=true删除规范,从而删除长度归一化以便不提升较短的文档?

于 2012-09-18T17:42:26.887 回答