问题标签 [urllib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3364 浏览

python - FancyURLopener、401 和“连接:关闭”的 Python 问题

我是 Python 新手,如果我遗漏了一些明显的东西,请原谅我。

我正在使用 urllib.FancyURLopener 来检索 Web 文档。在 Web 服务器上禁用身份验证时它可以正常工作,但在启用身份验证时会失败。

我的猜测是我需要继承 urllib.FancyURLopener 来覆盖 get_user_passwd() 和/或 prompt_user_passwd() 方法。所以我做了:

然后我尝试打开页面:

我希望 FancyURLopener 能够处理 401,调用我的 get_user_passwd(),然后重试请求。

它不是; 当我调用“f = opener.open()”时,我得到了 IOError 异常。

Wireshark 告诉我请求已发送,并且服务器正在发送带有两个感兴趣的标头的“401 Unauthorized”响应:

然后连接关闭,我发现我的异常,一切都结束了。

即使我在 IOError 之后重试“f = opener.open()”,它也会以同样的方式失败。

我已经验证了我的 my_opener() 类正在通过使用简单的“print 'Got 401 error'”覆盖 http_error_401() 方法来工作。我也尝试过覆盖 prompt_user_passwd() 方法,但这也没有发生。

我看不到主动指定用户名和密码的方法。

那么如何让 urllib 重试请求呢?

谢谢。

0 投票
4 回答
11036 浏览

python - 通过linux机器打开windows共享文件夹

我在 Ubuntu 上使用 python 2.5,并且在同一网络中有一台名为machine1. 该文件夹已共享。

如何在该机器的特定文件夹中获取文件?

我试过了,没有成功:

0 投票
2 回答
846 浏览

python - 无法使用 python urllib.urlopen() 或 Shiretoko 以外的任何网络浏览器获取网站

这是我要获取的网站的 URL

https://salami.parc.com/spartag/GetRepository?friend=jmankoff&keywords=antibiotic&option=jmankoff%27s+tags

当我使用以下代码获取网站并使用以下代码显示内容时:

我得到以下输出:

我也得到与 urllib2 相同的结果。现在有趣的是,此 URL 仅适用于 Shiretoko Web 浏览器 v3.5.7。(当我说它有效时,我的意思是它给我带来了正确的页面)。当我将此 URL 输入 Firefox 3.0.15 或 Konqueror v4.2.2 时。我得到完全相同的错误页面(带有“无效输入数据”)。我不知道是什么造成了这种差异以及如何使用 Python 获取此页面。有任何想法吗?

谢谢

0 投票
2 回答
1552 浏览

python - python FancyURLopener 超时

有没有办法为 FancyURLopener() 设置连接超时?我正在使用 FancyURLopener.retrieve() 下载文件,但有时它只是卡住了,仅此而已......我认为这是因为它仍在尝试连接并且不可能。那么有没有办法设置超时?

感谢您的每一个回复

0 投票
2 回答
18293 浏览

python - Python:ImportError 没有名为 urllib 的模块

我刚从 Linode 租了一个 VPS,它有 python2.5 和 ubuntu 8.04。python当我从shell运行这个命令时:

我得到:

可能是什么原因?如何将此模块添加到python?不是预装了基础版吗?

会不会是 PYTHONPATH 问题?

0 投票
1 回答
749 浏览

python - Python:当我需要 ASCII 时,使用 urllib 获取 SVG 文件正在返回二进制文件

我正在使用 urllib(在 Python 中)来获取 SVG 文件:

产生以下输出:

当我期待更多这样的时候:

我想这是二进制与 ASCII 的问题。任何人都可以帮助我(Python 新手)进行适当的转换,以便我可以继续解析和操作 SVG 代码吗?

0 投票
5 回答
156210 浏览

python - I/O 错误(套接字错误):[Errno 111] 连接被拒绝

我有一个使用 urllib 定期获取 url 的程序,我看到间歇性错误,例如:

I/O 错误(套接字错误):[Errno 111] 连接被拒绝。

它在 90% 的时间里都能正常工作,但在其他 10% 的时间里它都失败了。如果在失败后立即重试获取,则成功。我无法弄清楚为什么会这样。我试图查看是否有可用的端口,它们是可用的。任何调试想法?

有关其他信息,堆栈跟踪是:

编辑 - 谷歌搜索不是很有帮助,我从中得到的是我从中获取的服务器有时会拒绝连接,我如何验证它不是我的代码中的错误,这确实是这种情况?

0 投票
3 回答
1877 浏览

python - Python 的 urllib2 在某些网站上不起作用

我发现您无法使用 Python 的 urllib2(或 urllib)从某些站点读取内容。一个例子...

当您使用浏览器访问该站点时,这些站点就会起作用。我什至可以使用 PHP 抓取它们(没有尝试其他语言)。我见过其他有同样问题的网站——但现在不记得网址了。

我的问题是...

  1. 这个问题的原因是什么?
  2. 任何解决方法?
0 投票
1 回答
819 浏览

asp.net - 使用 Python 的 urllib 从通过 __doPostBack() 完成的页面检索信息?

我正在尝试解析一个页面,该页面具有加载了 Javascript __doPostBack() 函数的不同部分。

链接示例如下: javascript:__doPostBack('ctl00$cphMain$ucOemSchPicker$dlSch$ctl03$btnSch','')

单击此按钮后,浏览器不会获取新 URL,而是会更新网页的一部分以反映新信息。

我会将什么传递给 urllib 函数来完成操作?

0 投票
4 回答
6918 浏览

python - 如何使用 python urllib 忽略 Windows 代理设置?

我希望 Python 在使用urllib. 我设法做到这一点的唯一方法是禁用 Internet Explorer 上的所有代理设置。有什么程序化的方式吗?

os.environ['no_proxy']不是一个好的选择,因为我想避免所有地址的代理。