2

我想选择以上之一来为特定网站构建爬虫框架。这不是互联网范围内的爬网。我不是在建立搜索索引,而是对从网站上抓取特定页面感兴趣。

有人可以详细说明上述的利弊吗?谢谢奈恩

4

1 回答 1

-1

您的主要任务是从网站上抓取特定页面。

Nutch : 基于 Lucene Java 构建的开源网络搜索软件

Heritrix:是 Internet Archive 的开源、可扩展、网络规模、档案质量的网络爬虫项目

所以我认为对于您的项目,Heritrix 比 Nutch 好得多。

学习框架/库是一项有价值的练习。但这需要一些时间。由于您的任务不是很复杂,有时用 Java 从头开始​​编写一个简单的爬虫会不会那么痛苦

于 2010-07-16T07:38:59.620 回答