目前我正在爬取大量预定义的站点,寻找极少数感兴趣的特定文档。重要的是,我不会爬取这些网站来创建自己的搜索引擎:它专门用于检索文档。
所有主要的搜索引擎都有一个我不介意付费的 API,但他们似乎专注于使用他们的 API 来制作你自己的搜索引擎。
例如:http://info.yahoo.com/legal/us/yahoo/boss/tou/ 上的 Yahoo BOSS TOS。B.1(a) 规定“您只能将服务用于合并和显示服务的结果,作为部署在您的产品上的搜索产品的一部分”。所以我只能将它用于我自己的搜索引擎。
谷歌只有自定义搜索引擎的东西,这又不是我需要的。
Bing 的 API 似乎更接近我所需要的,但它的 TOS 不需要删除某些信息等。但话又说回来,它并不要求我只使用它来实现我自己的搜索引擎(据我所知) .
我是否对此阅读过多,或者是否有一个搜索引擎允许我基本上使用他们对某些网站的抓取结果而不是我自己的搜索结果用于我的产品?同样,搜索结果本身不是我的产品:它是我对文档中的数据所做的。
感谢您的任何提示。