我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(尝试进行一些自然语言处理)。我真的对 XML 一无所知,我只是在使用一个如何使用 feedparser 的示例。问题是我在从 RSS 提要获得的 dict 中找不到新闻的内容只是标题。
我目前正在尝试使用的代码是这样的:
import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later
feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()
我在这篇文章中得到的键只是标题、摘要、日期等......没有内容。
这是谷歌新闻的问题还是我做错了什么?有没有办法做到这一点?