1

这个问题来自一个非技术人员。我已经要求一个团队构建一种 RSS 阅读器。从本质上讲,它是一个新闻聚合器。我们最初的想法是直接从特定来源获取新闻:ft.com、reuters.com 和bloomberg.com。

现在,开发团队提出了一种特定的方法(因为它会更容易)......那就是使用 news.google.com 并返回任何结果。现在我知道这有可疑的合法性,我们对这个事实并不那么满意,但是当法律部门正在检查时......我们已经开始使用原型。

现在出现了技术问题......因为该方法实际上是通过news.google.com模拟搜索,一段时间后它返回一个验证码。我怀疑这是因为该方法是使用显示为RSS 的结果进行搜索,而不是直接使用RSS ......但是开发团队说 RSS 是完全相同的东西......并且它也会提供验证码。

我有疑问。如果是这样的话,其他新闻聚合网站是如何完成来自不同来源的提要的汇编的?

供您参考,这里是最终提供验证码的 URL 相同 https://news.google.com/news/feeds?hl=en&gl=sg&as_qdr=a&authuser=0&q=dbs+bank+singapore&bav=on.2, or.r_gc.r_pw.r_cp.,cf.osb&biw=1280&bih=963&um=1&ie=UTF-8&output=rss

4

2 回答 2

2

“搜索”通常在验证码后面,因为它非常耗费资源,因此他们尽其所能防止机器人搜索。正常的 RSS 提要与资源密集型相反。总结一下:正常的 RSS 提要可能不会触发 CAPTCHA。

于 2012-05-07T10:33:40.650 回答
1

由于 Google 于 2011 年 5 月 26 日宣布其新闻 API 已弃用,因此可能按照本组帖子http://productforums.google.com/forum/#!topic/news/RBRH8pihQJI中的建议使用NewsCred可能是您商业用途的一个选项.

于 2012-05-07T10:45:34.890 回答