我使用了从他们的 wiki 安装 nutch 的示例。我能够轻松地抓取从 dmoz 中提取的多个页面。但是是否可以进行配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入接下来要抓取的文件?
跟随页面上的链接以使用 nutch 索引该页面的最佳方法是什么?如果我通过 python 执行 bin/nutch,我可以取回它找到的所有外部链接,并创建一个新的爬网列表以再次运行吗?你会怎么办?
我使用了从他们的 wiki 安装 nutch 的示例。我能够轻松地抓取从 dmoz 中提取的多个页面。但是是否可以进行配置来抓取它在页面上找到的外部链接,或者将这些外部链接写入接下来要抓取的文件?
跟随页面上的链接以使用 nutch 索引该页面的最佳方法是什么?如果我通过 python 执行 bin/nutch,我可以取回它找到的所有外部链接,并创建一个新的爬网列表以再次运行吗?你会怎么办?