python - 仅当它是 HTML 网页时才下载 URL

Question

我想编写一个 python 脚本，仅当网页包含 HTML 时才下载网页。我知道content-typeinheader将被使用。请建议以某种方式执行此操作，因为我无法header在文件下载之前获得方法。

score 2 · Accepted Answer

用于http.client向 URL 发送HEAD请求。这将只返回资源的标头，然后您可以查看content-type标头并查看它是否text/html。如果是，则向GETURL 发送请求以获取正文。

1 回答 1