我有兴趣构建一个程序来从一组特定的网站(例如“ScienceDirect”)获取特定领域(“计算机科学”)中的所有最新文章。如您所知,有些网站会为每篇研究文章发布一个页面,例如:http ://www.sciencedirect.com/science/article/pii/S108480451400085X 每个页面都包含特定文章的信息。
我很想知道什么是用于此目的的最佳工具(开源)?通用网络爬虫(例如 Apache Nutch)提供了一个通用框架来爬取整个网络,但在我的情况下,我需要一个特定于网站的爬虫。