问题标签 [urlopen]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
569 浏览

python - 使用 urllib.urlopen 时获取文件名

我正在使用urllib.urlopen从 URL 读取文件。获取文件名的最佳方法是什么?服务器是否总是返回Content-Disposition标头?

谢谢。

0 投票
2 回答
707 浏览

python - Python urllib2.urlopen 错误:超时错误导致我的 Internet 连接中断?

我不知道我是否做错了什么,但我 100% 确定是 python 脚本导致我的 Internet 连接中断。

我写了一个 python 脚本来抓取数千个文件的头信息,主要是为了 Content-Length 来获取每个文件的确切大小,使用 HEAD 请求。

示例代码:

事情是在运行几个小时后,脚本开始抛出 urlopen 错误超时,我的互联网连接从那时起就关闭了。在我关闭该脚本后,我的 Internet 连接总是会立即恢复。一开始还以为是连接不稳定,但是运行了几次,原来是脚本的问题。

我不知道为什么,这应该被认为是一个错误,对吧?还是我的 ISP 禁止我做这些事情?(我已经将程序设置为每个请求等待 10 秒)

顺便说一句,我正在使用 VPN 网络,这与此有关吗?

0 投票
1 回答
129 浏览

python - urllib2.urlopen 使用哪些注册表/环境(或其他)设置来确定代理设置?

从这个问题开始:是什么导致 urllib2.urlopen() 通过代理连接?

我想知道哪些操作系统和环境设置会影响 urllib2.urlopen?

例如,我注意到在我们非常大的公司中的某些机器上,urllib2.urlopen 坚持通过代理进行连接。这是一个问题,因为我们的应用程序需要连接的资源位于本地网络上,因此将代理添加到混合中会导致身份验证问题。

我正在使用 Windows 32 位 XP / Python 2.4.4

0 投票
10 回答
33182 浏览

python - 如何使用 urlopen 获取非 ascii url?

我需要从具有非 ascii 字符的 URL 中获取数据,但 urllib2.urlopen 拒绝打开资源并引发:

我知道 URL 不符合标准,但我没有机会更改它。

使用 Python 访问包含非 ascii 字符的 URL 指向的资源的方法是什么?

编辑:换句话说,urlopen 可以/如何打开如下 URL:

0 投票
2 回答
15903 浏览

python - 如何处理“getaddrinfo 失败”?

你好,我有问题。我使用 mechanize,python 2.7 连接一些站点(代码现在不重要)我有站点列表,我现在连接到它们。当它发生时,我列表中的站点不存在,我得到错误:

urllib2.URLError: [Errno 11004] getaddrinfo 失败

我试图通过这样做来处理它:

或者

甚至

但它只是不想工作。

如何解决这个问题?发生此错误时,我只想打印“连接失败”之类的内容并移至列表中的下一个地址。如何捕获此错误except

0 投票
1 回答
1781 浏览

python - 使用 urllib2.urlopen 时如何访问包含重定向的原始响应标头

我正在尝试解析使用 urllib2.urlopen 后返回的 HTTP 响应的位置标头,但我收到的唯一响应标头来自目标重定向 --- 不是包含位置标头的原始响应。

我已经关注了 Stack Overflow 上的其他问题,这些问题建议对 urllib2.HTTPRedirectHandler 进行子类化,但我仍然无法理解如何访问 urlopen 最终遵循的原始响应。

这是问题的一个例子:

print 的输出包含重定向请求目标的响应标头。我想看原版。

任何帮助,将不胜感激。

0 投票
2 回答
1179 浏览

python - 几次调用后,通过代理的 urllib2.urlopen 失败

编辑: 经过多次摆弄,似乎 urlgrabber 在 urllib2 失败的地方成功了,即使在每个文件之后告诉它关闭连接也是如此。似乎 urllib2 处理代理的方式或我使用它的方式可能有问题!无论如何,这是在循环中检索文件的最简单的代码:


大家好 !

我正在尝试编写一个非常简单的 python 脚本来通过 urllib2 获取一堆文件。

该脚本需要通过代理工作(如果在内部网上抓取文件,即没有代理,我的问题不存在)。

在几次请求“HTTPError:HTTP Error 401:basic auth failed”后,所述脚本失败。知道为什么会这样吗?似乎代理拒绝了我的身份验证,但为什么呢?前几个 urlopen 请求正确通过!

编辑:在请求之间添加 10 秒的睡眠以避免代理可能执行的某种限制不会改变结果。

这是我的脚本的简化版本(显然,已删除了已识别的信息):

提前致谢 !

0 投票
1 回答
558 浏览

python - python urllib.request.urlopen 递归失败

所以我有代码

但是当我运行它时,它只运行第一个m = urllib.request.urlopen(url)并且只打印一次测试,即使它应该执行两次......

当我运行调试器时,它甚至不会在第二次递归时进入 print('test') 行,而只会退出

我做错了什么?

我正在使用 python 3

0 投票
1 回答
1176 浏览

python - 如何在 Python 中可靠地处理 Web 数据

我正在使用以下代码从网站获取数据:

[...]

有没有一种方法可以处理所有这些异常,而无需每次都使用如此多的样板代码?

谢谢!

0 投票
1 回答
836 浏览

python - 如何使用 openurl 和 multiprocessing 同时获取不同的 URL 数据?

此循环有助于从 Web 服务获取一些文本数据:

现在我尝试使用多处理同时获取不同的数据标题:

我希望这可以做“http://url/abc.csv”的获取和保存;“http://url/def.csv”;“http://url/ghi.csv”,然后在time.sleep. 但是它不起作用,或者在同一时间执行相同的过程,我犯了什么逻辑错误?