-2

所以我要尝试为朋友创建这个刮板。基本上,我希望它获取网站上的所有链接。而已。

我知道它会有点围绕:

links = re.findall()
print links

我在网上找到了re.finall,但不知道如何使用它!任何指向正确方向的指针都会有很大帮助!

4

1 回答 1

1

试试BeautifulSoup。它处理糟糕的 HTML,并提供了一个非常好的解析 HTML 的界面。另外,它真的很容易使用。这是你的刮刀(直接来自文档):

for link in soup.find_all('a'):
    print(link.get('href'))
于 2013-08-13T03:29:52.710 回答