我打算建立一个服务,提供特定网站中特定网页的摘要内容。
因此,我不再依赖 Google 或 Bing API(这需要花钱),而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的,例如 Apache Nutch 对这个项目来说太大了。
理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议么?
我打算建立一个服务,提供特定网站中特定网页的摘要内容。
因此,我不再依赖 Google 或 Bing API(这需要花钱),而是考虑寻找可以完成这项工作的网络爬虫和搜索引擎。我只需要小规模的,例如 Apache Nutch 对这个项目来说太大了。
理想的解决方案是一个可嵌入的库,它可以获取网站列表、获取其内容并将它们保存在数据库中以供以后搜索。有什么建议么?
你的意思是你打算建立一个总结网络内容的服务?以下是一些可用于执行此操作的 API:
还有一些我自己的:
最后两个是基于这个关于如何创建自己的摘要器的优秀教程 - http://thetokenizer.com/2013/04/28/build-your-own-summary-tool/
爬虫和索引器通常是两个独立的组件。
我还建议您看看西北大学,它比我能更好地描述这种方式......所以这里是你的链接