python - 使用 XPath 和变量解析 lxml.html

Question

我有这个 HTML 片段

<div id="dw__toc">
<h3 class="toggle">Table of Contents</h3>
<div>

<ul class="toc">
<li class="level1"><div class="li"><a href="#section">#</a></div>
<ul class="toc">
<li class="level2"><div class="li"><a href="#link1">One</a></div></li>
<li class="level2"><div class="li"><a href="#link2">Two</a></div></li>
<li class="level2"><div class="li"><a href="#link3">Three</a></div></li>

现在我想用 lxml.html 解析它。最后我想要一个函数，我可以提供一个搜索词（即“一个”）并且该函数应该返回

One
#link1

现在我正在尝试在 XPath 中获取一个变量。

作品：

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a/text()='One'")

print test

尝试使用变量。我想'One'用一个变量替换硬编码，稍后我可以返回该函数。

不起作用：

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

desiredvars = ['One']
myresultset=((var, html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='%s']"%(var))[0]) for var in desiredvars)

for each in myresultset: 
        print each

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "<stdin>", line 1, in <genexpr>
IndexError: list index out of range

这是基于这个答案：https ://stackoverflow.com/a/10688235/2320453 知道为什么它不起作用吗？这是做这样的事情的“正确方法”吗？

编辑： 总结一下：我想在 a-Tags 中搜索并从此属性中获取文本，但我不想要一个完整的列表，而是希望能够使用变量进行搜索。伪代码：

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

searchterm = 'one'

test=html.xpath("...a/text()=searchterm")

print test

预期结果

One
#link1

score 6 · Accepted Answer

你的第一个例子是炒锅，但可能不是你认为的那样：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a/text()='One'")

这返回的是一个布尔值，如果...='One'xpath 表达式左侧结果集中的任何节点的条件为真，则该布尔值为真。这就是为什么您在第二个示例中得到错误：True[0]无效。

您可能希望所有与表达式匹配的节点都具有'One'文本。对应的表达式是：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']")

这将返回一个节点集作为结果，或者如果您只需要 url 作为字符串：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']/@href")
# returns: ['#link1']

score 4 · Accepted Answer

我尝试了mata的回应，但对我来说没有用：

div_name = 'foo'
my_div = x.xpath(".//div[@id=%s]" %div_name)[0]

我在他们的网站http://lxml.de/xpathxslt.html#the-xpath-method上为那些可能有同样问题的人找到了这个：

div_name = 'foo'
my_div = x.xpath(".//div[@id=$name]", name=div_name)[0]

python - 使用 XPath 和变量解析 lxml.html

2 回答 2

Related

Reference