python - 限制pycurl中的文本下载内容

Question

我想在 python (pycurl) 中使用 curl 下载网站内容。但我不希望这些网站的全部文本只是网站的一部分。我想减少下载整个文本所花费的时间。谢谢你。

score 2 · Accepted Answer

您应该在 HTTP 请求中设置相关标头，请参阅 this question on how to do it withpycurl

注意：这仅适用于您：

score 0 · Accepted Answer

通常，加载页面的延迟与 HTML 的实际下载无关——这通常非常快，因为 html 只不过是 Unicode 文本。除非页面上有大量实际文本和标记，否则您不会节省太多。此外，为了获取页面的任何实际内容，您<head>无论如何都需要下载整个内容......

就个人而言，我会异步处理这个问题。Twisted是此类方法的更常见建议之一。

2 回答 2