1

我正在尝试使用 Python BeautifulSoup 构建一个基本的网络爬虫来创建远程站点的本地镜像。我不想以任何方式转换数据,我只想:

  1. 输入网址
  2. 去那个网址。将文件保存在该目录及其子目录中。
  3. 保存从已保存文件链接的 JS、CSS 和图像文件

我觉得这将是 BeautifulSoup 的一个非常常见和基本的用法,但找不到它的示例。有人可以指导我,或粘贴一个例子吗?


如下所示,一种更简单的方法是使用HTTrack。当我问这个问题时,我并不知道,但它是创建网站本地副本的一种快速简便的方法。

4

0 回答 0