0

我想获取一个元素的整个文本来解析一些 xhtml:

<div id='asd'>
  <pre>skdsk</pre>
</div>

在上面的例子中开始 E = div 元素,我想得到

<pre>skdsk</pre>

如何?

4

1 回答 1

2

严格来讲:

from xml.dom.minidom import parse, parseString
tree = parseString("<div id='asd'><pre>skdsk</pre></div>")
root = tree.firstChild
node = root.childNodes[0]
print node.toxml()

不过,在实践中,我建议您查看http://www.crummy.com/software/BeautifulSoup/库。在 xhtml 文档中找到正确的 childNode 并跳过“空白节点”是一种痛苦。BeautifulSoup 是一个强大的 html/xhtml 解析器,具有出色的树搜索功能。

编辑:上面的示例将 HTML 压缩为一个字符串。如果您在问题中使用 HTML,则换行符等将生成“空白”节点,因此您想要的节点不会位于 childNodes[0]。

于 2009-03-20T15:54:51.773 回答