我是 python 的新手,我需要一些关于使用 lxml 查找和迭代 html 标签的语法方面的帮助。以下是我正在处理的用例:
HTML 文件的格式相当好(但并不完美)。屏幕上有多个表格,一个包含一组搜索结果,一个用于页眉和页脚。每个结果行都包含一个搜索结果详细信息的链接。
我需要找到带有搜索结果行的中间表(我能够弄清楚这一行):
self.mySearchTables = self.mySearchTree.findall(".//table") self.myResultRows = self.mySearchTables[1].findall(".//tr")
我需要找到此表中包含的链接(这是我卡住的地方):
for searchRow in self.myResultRows: searchLink = patentRow.findall(".//a")
它似乎并没有真正找到链接元素。
我需要链接的纯文本。我想
searchLink.text
如果我实际上首先获得了链接元素,那将会是这样的。
最后,在 lxml 的实际 API 参考中,我无法找到有关 find 和 findall 调用的信息。我从在谷歌上找到的一些代码中收集到了这些。我是否遗漏了有关如何使用 lxml 有效查找和迭代 HTML 标记的内容?