2

用Java开发时,并行系统还是分布式系统更适合网站爬虫和网络索引器?有哪些可用的框架?

4

2 回答 2

6

Nutch是您为 Java 找到的最好的爬虫/索引器组合之一,它现在是一个 Apache 项目(参见Wiki),因此是开源的。

特征:

  1. 并行和/或分布式获取、解析和索引
  2. 插件:纯文本、HTML、XML、ZIP、OpenDocument (OpenOffice.org)、Microsoft Office(Word、Excel、Powerpoint)、PDF、JavaScript、RSS、RTF、MP3(ID3 标签)
  3. 本体论
  4. 聚类
  5. MapReduce
  6. 分布式文件系统(通过 Hadoop)
  7. 链接图数据库
  8. NTLM 身份验证(Windows/Exchange/等)
于 2010-08-01T10:13:38.640 回答
1

Nutch是无与伦比的。我在项目中成功使用的另一个更简单的库是https://crawler.dev.java.net/您可以在https://crawler.dev.java.net/samples.html上找到示例。

于 2010-08-01T10:37:40.507 回答