问题标签 [urlopen]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 urllib.urlopen 时获取文件名
我正在使用urllib.urlopen
从 URL 读取文件。获取文件名的最佳方法是什么?服务器是否总是返回Content-Disposition
标头?
谢谢。
python - Python urllib2.urlopen 错误:超时错误导致我的 Internet 连接中断?
我不知道我是否做错了什么,但我 100% 确定是 python 脚本导致我的 Internet 连接中断。
我写了一个 python 脚本来抓取数千个文件的头信息,主要是为了 Content-Length 来获取每个文件的确切大小,使用 HEAD 请求。
示例代码:
事情是在运行几个小时后,脚本开始抛出 urlopen 错误超时,我的互联网连接从那时起就关闭了。在我关闭该脚本后,我的 Internet 连接总是会立即恢复。一开始还以为是连接不稳定,但是运行了几次,原来是脚本的问题。
我不知道为什么,这应该被认为是一个错误,对吧?还是我的 ISP 禁止我做这些事情?(我已经将程序设置为每个请求等待 10 秒)
顺便说一句,我正在使用 VPN 网络,这与此有关吗?
python - urllib2.urlopen 使用哪些注册表/环境(或其他)设置来确定代理设置?
从这个问题开始:是什么导致 urllib2.urlopen() 通过代理连接?
我想知道哪些操作系统和环境设置会影响 urllib2.urlopen?
例如,我注意到在我们非常大的公司中的某些机器上,urllib2.urlopen 坚持通过代理进行连接。这是一个问题,因为我们的应用程序需要连接的资源位于本地网络上,因此将代理添加到混合中会导致身份验证问题。
我正在使用 Windows 32 位 XP / Python 2.4.4
python - 如何使用 urlopen 获取非 ascii url?
我需要从具有非 ascii 字符的 URL 中获取数据,但 urllib2.urlopen 拒绝打开资源并引发:
我知道 URL 不符合标准,但我没有机会更改它。
使用 Python 访问包含非 ascii 字符的 URL 指向的资源的方法是什么?
编辑:换句话说,urlopen 可以/如何打开如下 URL:
python - 如何处理“getaddrinfo 失败”?
你好,我有问题。我使用 mechanize,python 2.7 连接一些站点(代码现在不重要)我有站点列表,我现在连接到它们。当它发生时,我列表中的站点不存在,我得到错误:
urllib2.URLError: [Errno 11004] getaddrinfo 失败
我试图通过这样做来处理它:
或者
甚至
但它只是不想工作。
如何解决这个问题?发生此错误时,我只想打印“连接失败”之类的内容并移至列表中的下一个地址。如何捕获此错误except
?
python - 使用 urllib2.urlopen 时如何访问包含重定向的原始响应标头
我正在尝试解析使用 urllib2.urlopen 后返回的 HTTP 响应的位置标头,但我收到的唯一响应标头来自目标重定向 --- 不是包含位置标头的原始响应。
我已经关注了 Stack Overflow 上的其他问题,这些问题建议对 urllib2.HTTPRedirectHandler 进行子类化,但我仍然无法理解如何访问 urlopen 最终遵循的原始响应。
这是问题的一个例子:
print 的输出包含重定向请求目标的响应标头。我想看原版。
任何帮助,将不胜感激。
python - 几次调用后,通过代理的 urllib2.urlopen 失败
编辑: 经过多次摆弄,似乎 urlgrabber 在 urllib2 失败的地方成功了,即使在每个文件之后告诉它关闭连接也是如此。似乎 urllib2 处理代理的方式或我使用它的方式可能有问题!无论如何,这是在循环中检索文件的最简单的代码:
大家好 !
我正在尝试编写一个非常简单的 python 脚本来通过 urllib2 获取一堆文件。
该脚本需要通过代理工作(如果在内部网上抓取文件,即没有代理,我的问题不存在)。
在几次请求“HTTPError:HTTP Error 401:basic auth failed”后,所述脚本失败。知道为什么会这样吗?似乎代理拒绝了我的身份验证,但为什么呢?前几个 urlopen 请求正确通过!
编辑:在请求之间添加 10 秒的睡眠以避免代理可能执行的某种限制不会改变结果。
这是我的脚本的简化版本(显然,已删除了已识别的信息):
提前致谢 !
python - python urllib.request.urlopen 递归失败
所以我有代码
但是当我运行它时,它只运行第一个m = urllib.request.urlopen(url)
并且只打印一次测试,即使它应该执行两次......
当我运行调试器时,它甚至不会在第二次递归时进入 print('test') 行,而只会退出
我做错了什么?
我正在使用 python 3
python - 如何在 Python 中可靠地处理 Web 数据
我正在使用以下代码从网站获取数据:
[...]
有没有一种方法可以处理所有这些异常,而无需每次都使用如此多的样板代码?
谢谢!
python - 如何使用 openurl 和 multiprocessing 同时获取不同的 URL 数据?
此循环有助于从 Web 服务获取一些文本数据:
现在我尝试使用多处理同时获取不同的数据标题:
我希望这可以做“http://url/abc.csv”的获取和保存;“http://url/def.csv”;“http://url/ghi.csv”,然后在time.sleep
. 但是它不起作用,或者在同一时间执行相同的过程,我犯了什么逻辑错误?