python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异

Question

我正在尝试使用 Beautifulsoup 解析 RSS/Podcast 提要，除了我似乎无法解析“pubDate”字段外，一切都运行良好。

data = urllib2.urlopen("http://www.democracynow.org/podcast.xml")
dom = BeautifulStoneSoup(data, fromEncoding='utf-8')
items = dom.findAll('item');

for item in items:
    title = item.find('title').string.strip()
    pubDate = item.find('pubDate').string.strip()

标题被解析得很好，但是当它到达 pubDate 时，它说：

Traceback（最近一次调用最后一次）：文件“”，第 2 行，在 AttributeError：'NoneType' 对象没有属性 'string'

但是，当我下载 XML 文件的副本并将“pubDate”重命名为其他名称，然后再次解析时，它似乎可以工作。pubDate 是 Python 中的保留变量还是什么？

谢谢，

G

score 3 · Accepted Answer

3

它适用于item.find('pubdate').string.strip(). 你为什么不使用feedparser？

于 2010-01-30T16:26:12.083 回答

python - pubDate RSS 使用 Beautifulsoup/Python 解析怪异

1 回答 1

Related

Reference