2

我打算建立一个服务,提供特定网站中特定网页的摘要内容。

因此,我不再依赖 Google 或 Bing API(这需要花钱),而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的,例如 Apache Nutch 对这个项目来说太大了。

理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议么?

4

2 回答 2

1

爬虫和索引器通常是两个独立的组件。

我还建议您看看西北大学,它比我能更好地描述这种方式......所以这里是你的链接

于 2013-06-20T21:00:32.350 回答