1

快速提问...我可以使用 libxml2dom 等创建/解析一大块 html...

但是,有没有办法以某种方式显示用于生成/提取html块的xpath..我假设有一些我找不到的方法/方法..

前任:

import libxml2dom
d = libxml2dom.parseString(s, html=1)

## 

hdr="//div[3]/table[1]/tr/th"

thdr_ = d.xpath(hdr)
print "lent = ",len(thdr_)

此时,thdr_ 是一个对象数组/列表。每个对象都指向一个 html 块(如果你愿意的话)

我试图弄清楚是否有办法获得,比如说,xpath,比如说,列表的 thdr_[x] 元素/项目......

IE:

thdr_[0]=//div[3]/table[1]/tr[0]/th
thdr_[1]=//div[3]/table[1]/tr[1]/th
thdr_[2]=//div[3]/table[1]/tr[2]/th
.
.
.

任何想法/评论..

谢谢

-汤姆

4

1 回答 1

0

我通过迭代每个节点并将 textContent 与我的预期文本进行比较来做到这一点。对于模糊比较,我使用了difflib中的 SequenceMatcher 类。

于 2010-01-29T11:51:35.023 回答