python - 在 python 中从 HTML 中提取所有 ANCHOR 的快速方法

Question

有没有简单、健壮和快速的方法来提取python中所有锚的href属性HTML？

我知道有一个使用 BeautifulSoup 的解决方案，但是 BeautifulSoup 的问题是它太重了，并且在某些 URL 上消耗了大量内存。

我正在谈论的任务非常简单 - 只需运行 HTML 并返回所有锚点的所有 HREF。

有人知道吗？

谢谢！

score 2 · Accepted Answer

你可以使用HTMLParser.

from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")

python - 在 python 中从 HTML 中提取所有 ANCHOR 的快速方法

1 回答 1

Related

Reference