Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我想选择以上之一来为特定网站构建爬虫框架。这不是互联网范围内的爬网。我不是在建立搜索索引,而是对从网站上抓取特定页面感兴趣。
有人可以详细说明上述的利弊吗?谢谢奈恩
您的主要任务是从网站上抓取特定页面。
Nutch : 基于 Lucene Java 构建的开源网络搜索软件
Heritrix:是 Internet Archive 的开源、可扩展、网络规模、档案质量的网络爬虫项目
所以我认为对于您的项目,Heritrix 比 Nutch 好得多。
学习框架/库是一项有价值的练习。但这需要一些时间。由于您的任务不是很复杂,有时用 Java 从头开始编写一个简单的爬虫会不会那么痛苦