用Java开发时,并行系统还是分布式系统更适合网站爬虫和网络索引器?有哪些可用的框架?
问问题
321 次
2 回答
6
Nutch是您为 Java 找到的最好的爬虫/索引器组合之一,它现在是一个 Apache 项目(参见Wiki),因此是开源的。
特征:
- 并行和/或分布式获取、解析和索引
- 插件:纯文本、HTML、XML、ZIP、OpenDocument (OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3(ID3 标签)
- 本体论
- 聚类
- MapReduce
- 分布式文件系统(通过 Hadoop)
- 链接图数据库
- NTLM 身份验证(Windows/Exchange/等)
于 2010-08-01T10:13:38.640 回答
1
Nutch是无与伦比的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/。您可以在https://crawler.dev.java.net/samples.html上找到示例。
于 2010-08-01T10:37:40.507 回答