3

我正在尝试使用 python 获取大约 5000 家公司的 Google 新闻。

我已经安排工作每 12 小时运行一次。

我实际上做的是使用 Google 新闻链接 ( https://news.google.com/news/feeds?q=MyQuery&output=rss ) 我为公司创建一个链接,然后解析返回的 XML 以获得所需的数据。

问题是它每 20 分钟返回 500 家公司的结果并给我提要,但之后它开始向我返回空结果。如果我打开链接,它有条目,但在代码执行期间,它会在为 500 家公司提供新闻后停止返回结果。

现在我想知道谷歌新闻是否有速率限制或单位时间限制?

下面是我的代码

companies = Company.objects.all() #About 6000 Companies
for company in companies:
    try:
        SearchQuery = company.query
        SearchQuery = SearchQuery.replace(' ', '%20')
        rss = "https://news.google.com/news/feeds?q="+SearchQuery+"&output=rss"
        feeds = feedparser.parse(rss)
        for post in feeds['entries']:
            try:
                url = post.link
                print("RSS Entry, Link: " + url) 
                title = post.title
                print("Inserting Article (Title): "+title)
            except Exception:
                exc_type, exc_value, exc_traceback = sys.exc_info()
                print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback)))       
    except Exception:
        exc_type, exc_value, exc_traceback = sys.exc_info()
        print(repr(traceback.format_exception(exc_type, exc_value,exc_traceback))) 

非常感谢您的帮助。

谢谢

4

0 回答 0