我有一个 url 种子列表包含超过 100000 个 url。我知道 nutch 不仅会抓取种子列表中的 url,还会抓取网站内的任何 url 链接。但是,我想知道有没有办法阻止这种行为?这样只需要抓取种子列表中指定的 url。
问问题
995 次
在您的 nutch-site.xml 配置中,将“db.ignore.external.links”属性设置为 true。
这将忽略注入列表之外的域的任何 url。
如果您使用crawl 命令,请检查 depth 参数。
-depth depth 表示从根页面开始应该爬取的链接深度。
使用它,您可以控制 Nutch 爬行所需的深度。值为 1 可能会将其限制在仅基本页面。