我的任务是从网站下载 Gbs 的数据。数据采用 .gz 文件的形式,每个文件大小为 45mb。
获取文件的简单方法是使用“wget -r -np -A files url”。这将以递归格式下载数据并镜像网站。下载速率非常高 4mb/sec。
但是,只是为了玩耍,我还使用 python 来构建我的 urlparser。
通过 Python 的 urlretrieve 下载速度非常慢,可能是 wget 的 4 倍。下载速率为 500kb/秒。我使用 HTMLParser 来解析 href 标签。
我不确定为什么会这样。有没有这方面的设置。
谢谢