0

我有一个 url 种子列表包含超过 100000 个 url。我知道 nutch 不仅会抓取种子列表中的 url,还会抓取网站内的任何 url 链接。但是,我想知道有没有办法阻止这种行为?这样只需要抓取种子列表中指定的 url。

4

2 回答 2

3

在您的 nutch-site.xml 配置中,将“db.ignore.external.links”属性设置为 true。

这将忽略注入列表之外的域的任何 url。

于 2013-01-10T06:18:41.290 回答
0

如果您使用crawl 命令,请检查 depth 参数。

-depth depth 表示从根页面开始应该爬取的链接深度。

使用它,您可以控制 Nutch 爬行所需的深度。值为 1 可能会将其限制在仅基本页面。

于 2013-01-10T03:45:51.223 回答