python - 在 Python 中使用 re.findall 创建链接抓取器

Question

所以我要尝试为朋友创建这个刮板。基本上，我希望它获取网站上的所有链接。而已。

我知道它会有点围绕：

links = re.findall()
print links

我在网上找到了re.finall，但不知道如何使用它！任何指向正确方向的指针都会有很大帮助！

score 1 · Accepted Answer

试试BeautifulSoup。它处理糟糕的 HTML，并提供了一个非常好的解析 HTML 的界面。另外，它真的很容易使用。这是你的刮刀（直接来自文档）：

for link in soup.find_all('a'):
    print(link.get('href'))

1 回答 1