-1

我想通过提供一个包含其 URL 列表的文件来下载网页的源代码。例如,我有一个包含以下 URL 的文件

http://www.adobe.com/support/security/bulletins/apsb09-19.html
http://www.adobe.com/support/security/bulletins/apsb09-20.html                                                                                                

我可以使用它吗,urllib因为我想使用 python 模块而不是 unix 命令(如 wget)?

我想阅读这个文件并将每个 URL 作为 urlopen 或 urlretrieve 的输入,谁能告诉我该怎么做?

4

1 回答 1

1

尽量分解问题。您有一个文本文件,其中每个 URL 都列在自己的行中。您知道 Python 非常支持逐行阅读,这要归功于open(),并且您可能熟悉urllibor requests,这取决于您的偏好。

所以你需要做的就是:

  1. 打开文件

  2. 逐行阅读

  3. 将该行用作 URL 字符串

  4. 使用urllibrequests向 URL 发送请求

  5. 捕获输出并解析它/保存它

你完成了!

于 2013-09-25T15:12:02.713 回答