Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用 Python 的请求库爬取一堆网页,但有时爬虫会偶然发现一个绝对庞大的页面,无论是 PDF 或视频还是其他庞大的文件。有没有一种好方法来限制它将下载的文件的最大大小?
urlopen 对象有一个 info() 方法,它提供各种有用的标头信息,包括 Content-Length
有时这设置不正确,但在大多数情况下应该是正确的,并且会有所帮助