2

我使用了从他们的 wiki 安装 nutch 的示例。我能够轻松地抓取从 dmoz 中提取的多个页面。但是是否可以进行配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入接下来要抓取的文件?

跟随页面上的链接以使用 nutch 索引该页面的最佳方法是什么?如果我通过 python 执行 bin/nutch,我可以取回它找到的所有外部链接,并创建一个新的爬网列表以再次运行吗?你会怎么办?

4

1 回答 1

3

首先,确保参数 'db.ignore.external.links' 设置为 false。此外,在“regex-urlfilter.txt”文件中,为您希望被抓取的外部链接添加规则或添加+.为最后一条规则。该+.规则将使爬虫跟踪所有链接。如果您使用最后一个选项,请注意您可能会爬取所有网络!

于 2010-10-27T12:43:42.957 回答