0

嗨,我无法理解 Python 的 minidom 模块。

我有看起来像这样的xml:

<Show>
<name>Dexter</name>
<totalseasons>7</totalseasons>
<Episodelist>
<Season no="1">
<episode>
<epnum>1</epnum>
<seasonnum>01</seasonnum>
<prodnum>101</prodnum>
<airdate>2006-10-01</airdate>
<link>http://www.tvrage.com/Dexter/episodes/408409</link>
<title>Dexter</title>
</episode>
<episode>
<epnum>2</epnum>
<seasonnum>02</seasonnum>
<prodnum>102</prodnum>
<airdate>2006-10-08</airdate>
<link>http://www.tvrage.com/Dexter/episodes/408410</link>
<title>Crocodile</title>
</episode>
<episode>
<epnum>3</epnum>
<seasonnum>03</seasonnum>
<prodnum>103</prodnum>
<airdate>2006-10-15</airdate>
<link>http://www.tvrage.com/Dexter/episodes/408411</link>
<title>Popping Cherry</title>
</episode>

更漂亮:http ://services.tvrage.com/feeds/episode_list.php?sid=7926

这是我试图从中读取的python代码:

xml = minidom.parse(urlopen("http://services.tvrage.com/feeds/episode_list.php?sid=7926"))
for episode in xml.getElementsByTagName('episode'):
    for node in episode.attributes['title']:
        print node.data

我无法获取实际的剧集数据,因为我想获取每集的所有数据。我尝试了不同的变体,但我无法让它工作。大多数情况下,我得到了<DOM Element: asdasd>回报。我只关心每一集里面的数据。

谢谢您的帮助

4

3 回答 3

1

title不是属性,而是标签。一个属性就像src<img src="foo.jpg" />

>>> parsed = parseString(s)
>>> titles = [n.firstChild.data for n in parsed.getElementsByTagName('title')]
>>> titles
[u'Dexter', u'Crocodile', u'Popping Cherry']

您可以扩展上述内容以获取其他详细信息。lxml不过更适合这个。正如您从上面的代码片段中看到的那样,minidom 并不是那么友好。

于 2012-09-09T12:21:42.330 回答
1

每个episode元素都有子元素,包括一个title元素。但是,您的代码正在寻找属性

要从 minidom 元素中获取文本,您需要一个辅助函数:

def getText(nodelist):
    rc = []
    for node in nodelist:
        if node.nodeType == node.TEXT_NODE:
            rc.append(node.data)
    return ''.join(rc)

然后您可以更轻松地打印所有标题:

for episode in xml.getElementsByTagName('episode'):
    for title in episode.getElementsByTagName('title'):
        print getText(title)
于 2012-09-09T12:22:53.560 回答
0

感谢 Martijn Pieters 向我推荐了 ElementTree API,我解决了这个问题。

xml = ET.parse(urlopen("http://services.tvrage.com/feeds/episode_list.php?sid=7296"))
                print 'xml fetched..'
                for episode in xml.iter('episode'):
                    print episode.find('title').text

谢谢

于 2012-09-09T12:24:16.657 回答