1

我想在 python (pycurl) 中使用 curl 下载网站内容。但我不希望这些网站的全部文本只是网站的一部分。我想减少下载整个文本所花费的时间。谢谢你。

4

2 回答 2

2

您应该在 HTTP 请求中设置相关 标头,请参阅this question on how to do it withpycurl

注意:这适用于您:

  1. 知道你想要的数据在结果中的数据偏移量(以字节为单位)
  2. 网络服务器支持这个
于 2011-06-21T07:02:24.197 回答
0

通常,加载页面的延迟与 HTML 的实际下载无关——这通常非常快,因为 html 只不过是 Unicode 文本。除非页面上有大量实际文本和标记,否则您不会节省太多。此外,为了获取页面的任何实际内容,您<head>无论如何都需要下载整个内容......

就个人而言,我会异步处理这个问题。Twisted是此类方法的更常见建议之一。

于 2011-06-21T07:14:45.433 回答