谷歌新闻可以通过关键字搜索,然后可以将搜索范围缩小到某个时间段。
我尝试在网站上进行搜索,然后使用结果页面的 url 对 python 中的搜索进行反向工程,因此:
import urllib2
url = 'https://www.google.com/search?hl=en&gl=uk&tbm=nws&authuser=0&q=apple&oq=apple&gs_l=news-cc.3..43j0l9j43i53.5710.6848.0.7058.5.4.0.1.1.0.66.230.4.4.0...0.0...1ac.1.SRcIeXL5d48'
handler = urllib2.urlopen(url)
html = handler.read()
但是,我收到 403 错误。此方法适用于其他网站,例如 bbc.co.uk。所以显然谷歌不希望我用 python 抓取网站。
所以我有两个问题:1)是否可以绕过谷歌设置的这个限制?如果是这样,如何?2)是否有任何其他可抓取的新闻网站,我可以在给定时期内搜索关键字的新闻。
对于任何一个选项,我都不介意使用付费服务。所以也欢迎这样的建议。
在此先感谢,K。