-2

我正在考虑使用 Python下载cplusplus.com 的 C 库。我想完全下载它,然后将其转换为链接文档,例如 Python 文档。这是我最初尝试下载首页。

#! python3
import urllib.request

filehandle = urllib.request.urlopen('http://www.cplusplus.com/reference/clibrary/')

with open('test.html', 'w+b') as f:
    for line in filehandle:
        f.write(line)

filehandle.close()

主页已正确下载,但其外观与原始网页完全不同。通过不同的外观,我的意思是在我运行脚本下载网页后,原始网页上漂亮的格式就消失了。

这是什么原因?

4

1 回答 1

2

发生这种情况是因为您的抓取版本不包含页面链接的级联样式表 (CSS)。它也不会包含任何链接到的任何图像或 javascript。如果要获取链接文件,则必须解析为它们抓取的源代码。

于 2013-07-29T17:43:03.730 回答