6

我正在做一个项目,我需要一个成熟的爬虫来做一些工作,为此我正在评估 Nutch。我当前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫,并且我需要它能够仅重新爬取站点的更新资源并跳过已经爬取的部分。有没有人有任何直接在 Java 中使用 Nutch 代码的经验,而不是通过命令行。我想从简单的开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没什么特别的。有没有一些例子,或者我应该看一些资源?我正在阅读 Nutch 文档,但其中大部分是关于命令行、搜索和其他内容的。无需索引和搜索的 Nutch 爬行模块的可用性如何?任何帮助表示赞赏。谢谢。

4

1 回答 1

1

Nutch 与您最有可能练习过的非常不同。因为它类似于一个框架,它不仅具有查询和搜索的前端,尽管 solr 似乎比原生 Nutch 搜索前端更强大。它还具有爬行部分和索引(进入 Lucene 索引)。

如果您想将爬网用于搜索以外的其他目的,则需要开发自己的程序并熟悉 Hadoop 和 MapReduce 编程。

不知道你想用你的爬行做什么,但它看起来不像 Nutch 是解决方案

于 2010-12-03T13:47:54.417 回答