apache-nutch 支持站点地图吗?或者我如何自己实现它?我如何使用优先级字段,是否应该将其乘以提升字段?
问问题
1624 次
2 回答
1
我猜他们现在支持它。我在这个链接上找到了
于 2014-02-18T17:54:32.193 回答
1
不是我知道的。根据您期望的行为,它们是多种实现,您可以更具体吗?例如:+您可以使提交的新站点地图被“注入”并获得高分,这样它们就会更早地被抓取。为此,只需在开始新的抓取/获取/索引周期之前添加一个注入命令 + 您可以创建一个评分插件,该插件将提升站点地图中的 URL ...但是您不能在 URL 级别定义重新抓取周期,如站点地图会显示。Nutch 具有内置功能,可以更频繁地重新抓取 URL,反之亦然。但是,您可以决定以频繁的刷新率来提高 URL 的分数,以便他们更早地被抓取......
于 2011-01-06T20:38:15.797 回答