2

我有 HTML:

<table>
<tbody>
<tr>
<td align="left" valign="top" style="padding: 0 10px 0 60px;">
<img src="/files/39.jpg" width="64" height="64">
</td>
<td align="left" valign="middle"><h1>30 Rock</h1></td>
</tr>
</tbody>
</table>

使用 Python 和 LXML 我需要从元素的属性src中提取值。<img>这是我尝试过的:

import lxml.html
import urllib

# make HTTP request to site
page = urllib.urlopen("http://my.url.com")
# read the downloaded page
doc = lxml.html.document_fromstring(page.read())

txt1 = doc.xpath('/html/body/table[2]/tbody/tr/td[1]/img')

当我打印时,txt1我只得到空列表[]。我该如何纠正?

4

1 回答 1

3

使用这个 XPath:

//img/@src

它将提取上下文节点src的所有后代img元素的属性。

于 2012-07-27T21:49:53.467 回答