2

我有这段代码,它从网页中读取链接(URL)并将它们打印在屏幕上。

connection = urllib.urlopen("http://www.google.com")
dom =  lxml.html.fromstring(connection.read())
for link in dom.xpath('//a/@href'):
    print link

它工作正常。
现在我想做完全相同的事情,但是代替锚标记中的 url,a我想获取位于imgunder的 HTML 标记中的图像的 url src。我无法理解这是如何 dom.xpath('//a/@href')工作的。如果有人可以解释它或只是指导我学习教程,那就太好了。
干杯

4

1 回答 1

3

要开始使用 xpath,请查看 http: wiki/XPath或有关USING XPATHS的更多信息。

//a/@href'从所有链接(<a>标签)中选择 href 属性。

对于所有图像 src 属性,这将是//img/@src.

于 2013-04-24T17:40:19.087 回答