所以我要尝试为朋友创建这个刮板。基本上,我希望它获取网站上的所有链接。而已。
我知道它会有点围绕:
links = re.findall()
print links
我在网上找到了re.finall,但不知道如何使用它!任何指向正确方向的指针都会有很大帮助!
所以我要尝试为朋友创建这个刮板。基本上,我希望它获取网站上的所有链接。而已。
我知道它会有点围绕:
links = re.findall()
print links
我在网上找到了re.finall,但不知道如何使用它!任何指向正确方向的指针都会有很大帮助!
试试BeautifulSoup。它处理糟糕的 HTML,并提供了一个非常好的解析 HTML 的界面。另外,它真的很容易使用。这是你的刮刀(直接来自文档):
for link in soup.find_all('a'):
print(link.get('href'))