1

有没有简单、健壮和快速的方法来提取python中所有锚的href属性HTML?

我知道有一个使用 BeautifulSoup 的解决方案,但是 BeautifulSoup 的问题是它太重了,并且在某些 URL 上消耗了大量内存。

我正在谈论的任务非常简单 - 只需运行 HTML 并返回所有锚点的所有 HREF。

有人知道吗?

谢谢!

4

1 回答 1

2

你可以使用HTMLParser.

from HTMLParser import HTMLParser

class extract_href(HTMLParser):
    def handle_starttag(self, tag, attrs):
        if tag == "a":
            for key, val in attrs:
                if key == 'href':
                    print val

parser = extract_href()
parser.feed("""<p><a href='www.stackoverflow.com'>link</a></p>""")
于 2012-10-29T17:59:50.980 回答