2

我正在构建一个小型网络爬虫,我想知道是否有人对实际实现有一些有趣的信息(只是爬行,没有搜索,没有排名,没有分类,只是爬行,亲吻:)。

作为记录,我已经有了 O'Reilly “Spidering hacks”和 No Starch Press “Webbots, spiders, and screen scrapers”。这些书非常好,但它们往往使事情变得简单,并且没有详细说明缩放、存储数据、并行内容和其他更高级的主题。当然,我可以查看现有开源爬虫的代码,但这会在另一边进行(C++ 爬虫似乎很复杂......)。我正在寻找一些有趣/额外的信息。

欢迎任何帮助,在此先感谢。

4

1 回答 1

2

如果您对网络爬虫的实现细节感兴趣,您可以研究现有的开源实现。这是Java 中的开源爬虫列表。这些项目中的大多数都处于非活动状态。但是 Internet Archive 的爬虫Heritix和 Apache Nutch是成熟的活跃项目,有很多值得学习的地方。

于 2009-06-03T11:54:56.347 回答