nutch - 您如何在找到的页面上抓取外部链接？

翻译自：https://stackoverflow.com/questions/4019115 2010-10-25T21:40:57.853

1168 次

2

我使用了从他们的 wiki 安装 nutch 的示例。我能够轻松地抓取从 dmoz 中提取的多个页面。但是是否可以进行配置来抓取它在页面上找到的外部链接，或者将这些外部链接写入接下来要抓取的文件？

跟随页面上的链接以使用 nutch 索引该页面的最佳方法是什么？如果我通过 python 执行 bin/nutch，我可以取回它找到的所有外部链接，并创建一个新的爬网列表以再次运行吗？你会怎么办？

1 回答 1

3

首先，确保参数 'db.ignore.external.links' 设置为 false。此外，在“regex-urlfilter.txt”文件中，为您希望被抓取的外部链接添加规则或添加+.为最后一条规则。该+.规则将使爬虫跟踪所有链接。如果您使用最后一个选项，请注意您可能会爬取所有网络！

于 2010-10-27T12:43:42.957 回答