solr - 如何配置 Nutch 只抓取 seeklist 中的 URL？（无需爬回）

Question

我有一个 url 种子列表包含超过 100000 个 url。我知道 nutch 不仅会抓取种子列表中的 url，还会抓取网站内的任何 url 链接。但是，我想知道有没有办法阻止这种行为？这样只需要抓取种子列表中指定的 url。

score 3 · Accepted Answer

在您的 nutch-site.xml 配置中，将“db.ignore.external.links”属性设置为 true。

这将忽略注入列表之外的域的任何 url。

score 0 · Accepted Answer

如果您使用crawl 命令，请检查 depth 参数。

-depth depth 表示从根页面开始应该爬取的链接深度。

使用它，您可以控制 Nutch 爬行所需的深度。值为 1 可能会将其限制在仅基本页面。

2 回答 2