web-applications - 有关网络爬取技术的信息

Question

我正在构建一个小型网络爬虫，我想知道是否有人对实际实现有一些有趣的信息（只是爬行，没有搜索，没有排名，没有分类，只是爬行，亲吻:)。

作为记录，我已经有了 O'Reilly “Spidering hacks”和 No Starch Press “Webbots, spiders, and screen scrapers”。这些书非常好，但它们往往使事情变得简单，并且没有详细说明缩放、存储数据、并行内容和其他更高级的主题。当然，我可以查看现有开源爬虫的代码，但这会在另一边进行（C++ 爬虫似乎很复杂......）。我正在寻找一些有趣/额外的信息。

欢迎任何帮助，在此先感谢。

score 2 · Accepted Answer

如果您对网络爬虫的实现细节感兴趣，您可以研究现有的开源实现。这是Java 中的开源爬虫列表。这些项目中的大多数都处于非活动状态。但是 Internet Archive 的爬虫Heritix和 Apache Nutch是成熟的活跃项目，有很多值得学习的地方。

web-applications - 有关网络爬取技术的信息

1 回答 1

Related

Reference