我用 nutch 3 个域(domain01、domain02 和 domain03)爬行。我想获取所有包含特定关键字的帖子(例如“冠军联赛”),然后在结果中首先显示来自 domain02 的帖子、来自 domain01 的下一个帖子和来自 domain03 的最后一个帖子。只是我想按域对它们进行优先排序
如果有办法设置域的优先级?
如果您始终具有相同的域顺序,那么您可以使用索引时间文档级别提升或查询时间按域(或域顺序)排序,然后按分数。
如果域顺序取决于查询,您可以使用QueryElevationComponent,但我认为您必须为每个高程规则提供完整的 ID 列表,并且它可能不支持顺序。
您还可以编写自己的自定义函数查询或组件(类似于 Query Elevation 一)。