0

一些 HTTP 响应可以有一个链接头,例如<http://www.i_am_a_url.com>;rel="meta data".

有谁知道抓取网址的任何干净方法?如果可能,我宁愿不使用正则表达式,因为正则表达式会导致代码中的可怕读取。

4

1 回答 1

-1

使用lxml

impoprt lxml.html

root = lxml.html.fromstring(response_content_string)
for a in root.cssselect('a[href]'):
    print(a)

或者

impoprt lxml.html

root = lxml.html.fromstring(response_content_string)
for el, attr, url, _ in root.iterlinks():
    print(url)
于 2013-06-13T14:44:40.203 回答