web-crawler - 如何使用一组特定的网站抓取特定域中的最新文章？

翻译自：https://stackoverflow.com/questions/26232688 2014-10-07T09:21:19.700

345 次

我有兴趣构建一个程序来从一组特定的网站（例如“ScienceDirect”）获取特定领域（“计算机科学”）中的所有最新文章。如您所知，有些网站会为每篇研究文章发布一个页面，例如：http ://www.sciencedirect.com/science/article/pii/S108480451400085X 每个页面都包含特定文章的信息。

我很想知道什么是用于此目的的最佳工具（开源）？通用网络爬虫（例如 Apache Nutch）提供了一个通用框架来爬取整个网络，但在我的情况下，我需要一个特定于网站的爬虫。

web-crawler - 如何使用一组特定的网站抓取特定域中的最新文章？

0 回答 0

Related

Reference