一些 HTTP 响应可以有一个链接头,例如<http://www.i_am_a_url.com>;rel="meta data"
.
有谁知道抓取网址的任何干净方法?如果可能,我宁愿不使用正则表达式,因为正则表达式会导致代码中的可怕读取。
一些 HTTP 响应可以有一个链接头,例如<http://www.i_am_a_url.com>;rel="meta data"
.
有谁知道抓取网址的任何干净方法?如果可能,我宁愿不使用正则表达式,因为正则表达式会导致代码中的可怕读取。
使用lxml
impoprt lxml.html
root = lxml.html.fromstring(response_content_string)
for a in root.cssselect('a[href]'):
print(a)
或者
impoprt lxml.html
root = lxml.html.fromstring(response_content_string)
for el, attr, url, _ in root.iterlinks():
print(url)