我正在做一个项目,我需要一个成熟的爬虫来做一些工作,为此我正在评估 Nutch。我当前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,并且我需要它能够仅重新爬取站点的更新资源并跳过已经爬取的部分。有没有人有任何直接在 Java 中使用 Nutch 代码的经验,而不是通过命令行。我想从简单的开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的。有没有一些例子,或者我应该看一些资源?我正在阅读 Nutch 文档,但其中大部分是关于命令行、搜索和其他内容的。无需索引和搜索的 Nutch 爬行模块的可用性如何?任何帮助表示赞赏。谢谢。
2133 次