0

目前我正在爬取大量预定义的站点,寻找极少数感兴趣的特定文档。重要的是,我不会爬取这些网站来创建自己的搜索引擎:它专门用于检索文档。

所有主要的搜索引擎都有一个我不介意付费的 API,但他们似乎专注于使用他们的 API 来制作你自己的搜索引擎。

例如:http://info.yahoo.com/legal/us/yahoo/boss/tou/ 上的 Yahoo BOSS TOS。B.1(a) 规定“您只能将服务用于合并和显示服务的结果,作为部署在您的产品上的搜索产品的一部分”。所以我只能将它用于我自己的搜索引擎。

谷歌只有自定义搜索引擎的东西,这又不是我需要的。

Bing 的 API 似乎更接近我所需要的,但它的 TOS 不需要删除某些信息等。但话又说回来,它并不要求我只使用它来实现我自己的搜索引擎(据我所知) .

我是否对此阅读过多,或者是否有一个搜索引擎允许我基本上使用他们对某些网站的抓取结果而不是我自己的搜索结果用于我的产品?同样,搜索结果本身不是我的产品:它是我对文档中的数据所做的。

感谢您的任何提示。

4

1 回答 1

0

您不会希望使用搜索引擎来执行此操作。

搜索引擎不会索引网站上的所有内容。例如,如果一个站点有很多类似的页面,它们将被丢弃。具有大量页面的站点将不会被完全索引。

这样你可能会错过很多页面。

让它爬行!

PS 爬取个别网站经常违反他们的服务条款。如果您关心这一点,请注意遵守 robots.txt。

于 2013-09-12T18:58:22.880 回答