问题标签 [urllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
51304 浏览

python - 在 Python 中下载之前获取文件的大小

我正在从 Web 服务器下载整个目录。它工作正常,但我不知道如何在下载之前获取文件大小以比较它是否在服务器上更新。这可以像我从 FTP 服务器下载文件一样完成吗?


@Jon:感谢您的快速回答。它可以工作,但 Web 服务器上的文件大小略小于下载文件的文件大小。

例子:

它与 CR/LF 转换有什么关系?

0 投票
26 回答
1308084 浏览

python - 如何通过 HTTP 下载文件?

我有一个小实用程序,用于按计划从网站下载 MP3 文件,然后构建/更新已添加到 iTunes 的播客 XML 文件。

创建/更新 XML 文件的文本处理是用 Python 编写的。但是,我在 Windows 文件中使用 wget.bat来下载实际的 MP3 文件。我更喜欢用 Python 编写整个实用程序。

我很难找到一种在 Python 中实际下载文件的方法,因此我求助于使用wget.

那么,如何使用 Python 下载文件?

0 投票
2 回答
2878 浏览

python - 如何使用 urllib、urllib2 和 ClientCookie 通过 Python 脚本登录 phpBB3 论坛?

(ClientCookie 是(自动)cookie 处理的模块:http ://wwwsearch.sourceforge.net/ClientCookie )

该脚本没有登录,而是似乎被重定向回同一个登录页面,要求它输入用户名和密码。我究竟做错了什么?

任何帮助将不胜感激!谢谢!

0 投票
4 回答
11258 浏览

python - urllib.urlopen 有效,但 urllib2.urlopen 无效

我有一个正在测试的简单网站。它在本地主机上运行,​​我可以在我的网络浏览器中访问它。索引页就是“运行”这个词。 urllib.urlopen将成功读取页面但urllib2.urlopen不会。这是一个演示问题的脚本(这是实际脚本,而不是不同测试脚本的简化):

这是堆栈跟踪:

有任何想法吗?我可能最终需要一些更高级的功能urllib2,所以我不想仅仅求助于 using urllib,而且我想了解这个问题。

0 投票
5 回答
76648 浏览

python - 如何在python中取消引用urlencoded unicode字符串?

我有一个像“Tanım”这样的unicode字符串,它以某种方式编码为“Tan%u0131m”。如何将此编码字符串转换回原始 unicode。显然 urllib.unquote 不支持 unicode。

0 投票
3 回答
1859 浏览

python - 如何使用 os.system() 从标准输入获取数据

我发现使用脚本从维基百科下载文本的唯一可靠方法是使用 cURL。到目前为止,我这样做的唯一方法是调用os.system(). 即使输出在 python shell 中正确显示,我似乎无法让函数返回除退出代码(0)之外的任何内容。或者有人可以展示如何正确使用urllib.

0 投票
5 回答
2392 浏览

python - 从 EXPLOSM.net 漫画脚本下载 [Python]

所以我写了这个简短的脚本(正确的词?)从explosm.net漫画下载漫画图像,因为我最近发现了它,我想......把它放在我的iPhone......3G上。

它工作正常。用于获取网页 html 的 urllib2 和用于 image.retrieve() 的 urllib

为什么我在 SO 上发布此内容:如何优化此代码?REGEX(正则表达式)会使其更快吗?是网络限制吗?算法差...?

速度或一般代码美学的任何改进将不胜感激“答案”。

谢谢你。

- - - - - - - - - - - - - - - - 代码 - - - - - - - - - -----------------

顺便说一句,这是 Python 2.5 代码,而不是 3.0,但你敢打赌,我在新年之前或之后对 PYthon 3.0 的所有功能进行了深入研究和使用(在大学应用程序之后 - 耶!^-^)

0 投票
3 回答
19629 浏览

python - 如何在 python 3.0 中通过 http 授权下载文件,解决错误?

我有一个我想继续使用的脚本,但看起来我要么必须为 Python 3 中的错误找到一些解决方法,要么降级回 2.6,因此也不得不降级其他脚本......

希望这里有人已经设法找到解决方法。

问题在于,由于 Python 3.0 中有关字节和字符串的新变化,显然并非所有库代码都经过了测试。

我有一个从 Web 服务器下载页面的脚本。该脚本在 python 2.6 中将用户名和密码作为 url 的一部分传递,但在 Python 3.0 中,这不再起作用。

例如,这个:

失败并出现此异常:

显然,base64 编码现在需要输入字节并输出一个字符串,因此 urlretrieve(或其中的一些代码)构建一个用户名:密码字符串,并尝试对其进行 base64 编码以进行简单授权,但失败了。

如果我改为尝试使用 urlopen,如下所示:

然后它失败并出现以下异常:

显然,这个“下一代 url 检索库”中的 url 解析不知道如何处理 url 中的用户名和密码。

我还有什么其他选择?

0 投票
2 回答
34585 浏览

python - Python 3.0 urllib.parse 错误“类型 str 不支持缓冲区 API”

谁能指导我如何避免这种情况?我通过将数据输入到中来获得它cgi.Fieldstorage,我似乎无法以任何其他方式做到这一点。

0 投票
3 回答
32716 浏览

python - 使用 urllib.open 时出现 Python 错误

当我运行这个:

我在交互式窗口(PythonWin)中得到这个输出:

我期待获得上述 URL 的来源。我知道这在其他计算机(比如学校的计算机)上也有效,但这是在我的笔记本电脑上,我不确定这里有什么问题。另外,我根本不理解这个错误。这是什么意思?添加信息?fp? 请帮忙。