python - Python处理没有正则表达式的http链接头

Question

一些 HTTP 响应可以有一个链接头，例如<http://www.i_am_a_url.com>;rel="meta data".

有谁知道抓取网址的任何干净方法？如果可能，我宁愿不使用正则表达式，因为正则表达式会导致代码中的可怕读取。

score -1 · Accepted Answer

使用lxml

impoprt lxml.html

root = lxml.html.fromstring(response_content_string)
for a in root.cssselect('a[href]'):
    print(a)

或者

impoprt lxml.html

root = lxml.html.fromstring(response_content_string)
for el, attr, url, _ in root.iterlinks():
    print(url)

1 回答 1