问题标签 [urlopen]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

348 问题

0 投票

1 回答

569 浏览

python - 使用 urllib.urlopen 时获取文件名

我正在使用urllib.urlopen从 URL 读取文件。获取文件名的最佳方法是什么？服务器是否总是返回Content-Disposition标头？

谢谢。

2010-10-12T08:49:07.550

0 投票

2 回答

707 浏览

python - Python urllib2.urlopen 错误：超时错误导致我的 Internet 连接中断？

我不知道我是否做错了什么，但我 100% 确定是 python 脚本导致我的 Internet 连接中断。

我写了一个 python 脚本来抓取数千个文件的头信息，主要是为了 Content-Length 来获取每个文件的确切大小，使用 HEAD 请求。

示例代码：

事情是在运行几个小时后，脚本开始抛出 urlopen 错误超时，我的互联网连接从那时起就关闭了。在我关闭该脚本后，我的 Internet 连接总是会立即恢复。一开始还以为是连接不稳定，但是运行了几次，原来是脚本的问题。

我不知道为什么，这应该被认为是一个错误，对吧？还是我的 ISP 禁止我做这些事情？（我已经将程序设置为每个请求等待 10 秒）

顺便说一句，我正在使用 VPN 网络，这与此有关吗？

python urllib2 urlopen

2010-10-20T03:02:46.707

0 投票

1 回答

129 浏览

python - urllib2.urlopen 使用哪些注册表/环境（或其他）设置来确定代理设置？

从这个问题开始：是什么导致 urllib2.urlopen() 通过代理连接？

我想知道哪些操作系统和环境设置会影响 urllib2.urlopen？

例如，我注意到在我们非常大的公司中的某些机器上，urllib2.urlopen 坚持通过代理进行连接。这是一个问题，因为我们的应用程序需要连接的资源位于本地网络上，因此将代理添加到混合中会导致身份验证问题。

我正在使用 Windows 32 位 XP / Python 2.4.4

python networking urllib2 urlopen

2010-11-19T09:50:13.507

0 投票

10 回答

33182 浏览

python - 如何使用 urlopen 获取非 ascii url？

我需要从具有非 ascii 字符的 URL 中获取数据，但 urllib2.urlopen 拒绝打开资源并引发：

我知道 URL 不符合标准，但我没有机会更改它。

使用 Python 访问包含非 ascii 字符的 URL 指向的资源的方法是什么？

编辑：换句话说，urlopen 可以/如何打开如下 URL：

python unicode urllib2 non-ascii-characters urlopen

2010-12-08T16:06:33.360

0 投票

2 回答

15903 浏览

python - 如何处理“getaddrinfo 失败”？

你好，我有问题。我使用 mechanize，python 2.7 连接一些站点（代码现在不重要）我有站点列表，我现在连接到它们。当它发生时，我列表中的站点不存在，我得到错误：

urllib2.URLError: [Errno 11004] getaddrinfo 失败

我试图通过这样做来处理它：

或者

甚至

但它只是不想工作。

如何解决这个问题？发生此错误时，我只想打印“连接失败”之类的内容并移至列表中的下一个地址。如何捕获此错误except？

python urllib2 urllib urlopen

2011-01-30T18:24:58.417

0 投票

1 回答

1781 浏览

python - 使用 urllib2.urlopen 时如何访问包含重定向的原始响应标头

我正在尝试解析使用 urllib2.urlopen 后返回的 HTTP 响应的位置标头，但我收到的唯一响应标头来自目标重定向 --- 不是包含位置标头的原始响应。

我已经关注了 Stack Overflow 上的其他问题，这些问题建议对 urllib2.HTTPRedirectHandler 进行子类化，但我仍然无法理解如何访问 urlopen 最终遵循的原始响应。

这是问题的一个例子：

print 的输出包含重定向请求目标的响应标头。我想看原版。

任何帮助，将不胜感激。

python header location urllib2 urlopen

2011-02-10T04:46:55.643

0 投票

2 回答

1179 浏览

python - 几次调用后，通过代理的 urllib2.urlopen 失败

编辑： 经过多次摆弄，似乎 urlgrabber 在 urllib2 失败的地方成功了，即使在每个文件之后告诉它关闭连接也是如此。似乎 urllib2 处理代理的方式或我使用它的方式可能有问题！无论如何，这是在循环中检索文件的最简单的代码：

大家好！

我正在尝试编写一个非常简单的 python 脚本来通过 urllib2 获取一堆文件。

该脚本需要通过代理工作（如果在内部网上抓取文件，即没有代理，我的问题不存在）。

在几次请求“HTTPError：HTTP Error 401：basic auth failed”后，所述脚本失败。知道为什么会这样吗？似乎代理拒绝了我的身份验证，但为什么呢？前几个 urlopen 请求正确通过！

编辑：在请求之间添加 10 秒的睡眠以避免代理可能执行的某种限制不会改变结果。

这是我的脚本的简化版本（显然，已删除了已识别的信息）：

提前致谢！

python authentication proxy urllib2 urlopen

2011-02-25T14:56:13.870

0 投票

1 回答

558 浏览

python - python urllib.request.urlopen 递归失败

所以我有代码

但是当我运行它时，它只运行第一个m = urllib.request.urlopen(url)并且只打印一次测试，即使它应该执行两次......

当我运行调试器时，它甚至不会在第二次递归时进入 print('test') 行，而只会退出

我做错了什么？

我正在使用 python 3

python recursion urllib web-crawler urlopen

2011-03-04T01:32:19.477

0 投票

1 回答

1176 浏览

python - 如何在 Python 中可靠地处理 Web 数据

我正在使用以下代码从网站获取数据：

[...]

有没有一种方法可以处理所有这些异常，而无需每次都使用如此多的样板代码？

谢谢！

python web urllib2 urlopen

2011-03-22T11:52:37.060

0 投票

1 回答

836 浏览

python - 如何使用 openurl 和 multiprocessing 同时获取不同的 URL 数据？

此循环有助于从 Web 服务获取一些文本数据：

现在我尝试使用多处理同时获取不同的数据标题：

我希望这可以做“http://url/abc.csv”的获取和保存；“http://url/def.csv”；“http://url/ghi.csv”，然后在time.sleep. 但是它不起作用，或者在同一时间执行相同的过程，我犯了什么逻辑错误？

python csv multiprocessing urlopen

2011-05-12T07:35:25.160

1 2 3 4 5 6 7 8 9 10

问题标签 [urlopen]

Reference