我正在尝试使用 python 获取大约 5000 家公司的 Google 新闻。
我已经安排工作每 12 小时运行一次。
我实际上做的是使用 Google 新闻链接 ( https://news.google.com/news/feeds?q=MyQuery&output=rss ) 我为公司创建一个链接,然后解析返回的 XML 以获得所需的数据。
问题是它每 20 分钟返回 500 家公司的结果并给我提要,但之后它开始向我返回空结果。如果我打开链接,它有条目,但在代码执行期间,它会在为 500 家公司提供新闻后停止返回结果。
现在我想知道谷歌新闻是否有速率限制或单位时间限制?
下面是我的代码
companies = Company.objects.all() #About 6000 Companies
for company in companies:
try:
SearchQuery = company.query
SearchQuery = SearchQuery.replace(' ', '%20')
rss = "https://news.google.com/news/feeds?q="+SearchQuery+"&output=rss"
feeds = feedparser.parse(rss)
for post in feeds['entries']:
try:
url = post.link
print("RSS Entry, Link: " + url)
title = post.title
print("Inserting Article (Title): "+title)
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
except Exception:
exc_type, exc_value, exc_traceback = sys.exc_info()
print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))
非常感谢您的帮助。
谢谢