python - 从页面下载文件

翻译自：https://stackoverflow.com/questions/10887751 2012-06-04T20:17:55.170

221 次

我想制作一个脚本（使用任何语言，但最好是 python 或 perl）下载由网页流式传输的特定类型的文件。但是我不知道这个文件的位置，所以我必须通过查找页面流式传输的所有文件来找到它，并根据文件类型选择我想要的文件。

一个类似的例子是说我想从 youtube 上下载一个视频，但是除了找到正在流式传输到我的计算机的文件之外，没有找到 URL 的模式或方法。

我无法弄清楚的部分是如何找到页面流式传输的所有文件。其余的我可以自己做。html页面的源代码中的任何地方都没有提到文件名。

问题的例子...

这工作正常：

import urllib
urllib.urlretrieve ("http://example.com/anything.mp3", "a.mp3")

但是，这不会：

import urllib
urllib.urlretrieve ("http://example.com/page-where-the-mp3-file-is-being-streamed.html", "a.mp3")

如果有人可以帮助我弄清楚如何从页面下载所有文件或找到正在流式传输的文件，我将不胜感激。我只需要知道哪种语言/库/方法可以实现这一点。谢谢

0 回答 0