我想在 python (pycurl) 中使用 curl 下载网站内容。但我不希望这些网站的全部文本只是网站的一部分。我想减少下载整个文本所花费的时间。谢谢你。
问问题
328 次
2 回答
2
您应该在 HTTP 请求中设置相关 标头,请参阅this question on how to do it withpycurl
注意:这仅适用于您:
- 知道你想要的数据在结果中的数据偏移量(以字节为单位)
- 网络服务器支持这个
于 2011-06-21T07:02:24.197 回答
0
通常,加载页面的延迟与 HTML 的实际下载无关——这通常非常快,因为 html 只不过是 Unicode 文本。除非页面上有大量实际文本和标记,否则您不会节省太多。此外,为了获取页面的任何实际内容,您<head>
无论如何都需要下载整个内容......
就个人而言,我会异步处理这个问题。Twisted是此类方法的更常见建议之一。
于 2011-06-21T07:14:45.433 回答