有没有简单、健壮和快速的方法来提取python中所有锚的href属性HTML?
我知道有一个使用 BeautifulSoup 的解决方案,但是 BeautifulSoup 的问题是它太重了,并且在某些 URL 上消耗了大量内存。
我正在谈论的任务非常简单 - 只需运行 HTML 并返回所有锚点的所有 HREF。
有人知道吗?
谢谢!
有没有简单、健壮和快速的方法来提取python中所有锚的href属性HTML?
我知道有一个使用 BeautifulSoup 的解决方案,但是 BeautifulSoup 的问题是它太重了,并且在某些 URL 上消耗了大量内存。
我正在谈论的任务非常简单 - 只需运行 HTML 并返回所有锚点的所有 HREF。
有人知道吗?
谢谢!
你可以使用HTMLParser
.
from HTMLParser import HTMLParser
class extract_href(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == "a":
for key, val in attrs:
if key == 'href':
print val
parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")