爬虫需要有一个可扩展的架构来允许改变内部流程,比如实现新的步骤(预解析器、解析器等......)
我找到了 Heritrix 项目 ( http://crawler.archive.org/ )。
但是还有其他类似的好项目吗?
爬虫需要有一个可扩展的架构来允许改变内部流程,比如实现新的步骤(预解析器、解析器等......)
我找到了 Heritrix 项目 ( http://crawler.archive.org/ )。
但是还有其他类似的好项目吗?
Nutch是免费爬虫的最佳选择。它基于Lucene的概念(以企业级方式)构建,并由Hadoop后端使用MapReduce(类似于 Google)支持大规模数据查询。很棒的产品!我目前正在阅读 manning 的新的(尚未发布的)Hadoop in Action中有关 Hadoop 的所有信息。如果您走这条路,我建议您加入他们的技术审查团队以获取此标题的早期副本!
这些都是基于 Java 的。如果你是一个 .net 人(像我一样!!),那么你可能对Lucene.NET、Nutch.NET和Hadoop.NET更感兴趣,它们都是类和 api 到 C# 的 api 端口。
您可能还想尝试 Scrapy http://scrapy.org/
指定和运行爬虫非常容易。
Abot 是一个很好的可扩展网络爬虫。架构的每个部分都是可插拔的,让您可以完全控制其行为。它的开源,免费用于商业和个人使用,用 C# 编写。
我最近发现了一个叫 - Nutch的。
如果你没有被平台束缚,我过去在Nutch方面有很好的经验。
它是用 Java 编写的,与 Lucene 索引器密切相关。