我已经阅读了很多关于 Web 抓取的答案,其中谈到了 BeautifulSoup、Scrapy 等来执行 Web 抓取。
有没有办法相当于从网络浏览器中保存页面的源?
也就是说,在 Python 中有没有办法将它指向一个网站并让它将页面的源代码保存到一个仅包含标准 Python 模块的文本文件中?
这是我要去的地方:
import urllib
f = open('webpage.txt', 'w')
html = urllib.urlopen("http://www.somewebpage.com")
#somehow save the web page source
f.close()
我知道的不多——但正在寻找代码来实际提取页面的源代码,以便我可以编写它。我收集到 urlopen 只是建立了一个连接。
也许有一个 readlines() 等效于阅读网页的行?