14

爬虫需要有一个可扩展的架构来允许改变内部流程,比如实现新的步骤(预解析器、解析器等......)

我找到了 Heritrix 项目 ( http://crawler.archive.org/ )。

但是还有其他类似的好项目吗?

4

5 回答 5

14

Nutch是免费爬虫的最佳选择。它基于Lucene的概念(以企业级方式)构建,并由Hadoop后端使用MapReduce(类似于 Google)支持大规模数据查询。很棒的产品!我目前正在阅读 manning 的新的(尚未发布的)Hadoop in Action中有关 Hadoop 的所有信息。如果您走这条路,我建议您加入他们的技术审查团队以获取此标题的早期副本!

这些都是基于 Java 的。如果你是一个 .net 人(像我一样!!),那么你可能对Lucene.NETNutch.NETHadoop.NET更感兴趣,它们都是类和 api 到 C# 的 api 端口。

于 2009-06-24T18:00:01.300 回答
4

您可能还想尝试 Scrapy http://scrapy.org/

指定和运行爬虫非常容易。

于 2011-02-11T09:59:49.053 回答
1

Abot 是一个很好的可扩展网络爬虫。架构的每个部分都是可插拔的,让您可以完全控制其行为。它的开源,免费用于商业和个人使用,用 C# 编写。

https://github.com/sjdirect/abot

于 2012-11-28T16:40:39.913 回答
0

我最近发现了一个叫 - Nutch的。

于 2009-06-24T17:32:03.947 回答
0

如果你没有被平台束缚,我过去在Nutch方面有很好的经验。

它是用 Java 编写的,与 Lucene 索引器密切相关。

于 2009-06-24T17:32:56.393 回答