我正在寻找重新编写我拥有的 Python 脚本,该脚本通过链接列表,然后从它获得的页面中提取几天。
出现的一个问题是,如果链接是图像或 zip 甚至 ISO,我不想下载整个文件。我可以尝试检查扩展名,但这并不总是有效。
在我的 Python 脚本中,我做了两件事。
连接到站点后,我会检查内容类型标题。Python 似乎能够在不下载整个文件的情况下做到这一点。
将我在请求中下载的 URL 限制为 150kb。由于我只是在 HTML 页面之后,这将涵盖它。
我想在这个项目中使用 Guzzle,但是查看文档我不确定这是否可以完成。
我的主要问题是确保我没有下载 ISO 文件或视频并使用所有 RAM 或带宽。