问题标签 [urllib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - FancyURLopener、401 和“连接:关闭”的 Python 问题
我是 Python 新手,如果我遗漏了一些明显的东西,请原谅我。
我正在使用 urllib.FancyURLopener 来检索 Web 文档。在 Web 服务器上禁用身份验证时它可以正常工作,但在启用身份验证时会失败。
我的猜测是我需要继承 urllib.FancyURLopener 来覆盖 get_user_passwd() 和/或 prompt_user_passwd() 方法。所以我做了:
然后我尝试打开页面:
我希望 FancyURLopener 能够处理 401,调用我的 get_user_passwd(),然后重试请求。
它不是; 当我调用“f = opener.open()”时,我得到了 IOError 异常。
Wireshark 告诉我请求已发送,并且服务器正在发送带有两个感兴趣的标头的“401 Unauthorized”响应:
然后连接关闭,我发现我的异常,一切都结束了。
即使我在 IOError 之后重试“f = opener.open()”,它也会以同样的方式失败。
我已经验证了我的 my_opener() 类正在通过使用简单的“print 'Got 401 error'”覆盖 http_error_401() 方法来工作。我也尝试过覆盖 prompt_user_passwd() 方法,但这也没有发生。
我看不到主动指定用户名和密码的方法。
那么如何让 urllib 重试请求呢?
谢谢。
python - 通过linux机器打开windows共享文件夹
我在 Ubuntu 上使用 python 2.5,并且在同一网络中有一台名为machine1
. 该文件夹已共享。
如何在该机器的特定文件夹中获取文件?
我试过了,没有成功:
python - 无法使用 python urllib.urlopen() 或 Shiretoko 以外的任何网络浏览器获取网站
这是我要获取的网站的 URL
当我使用以下代码获取网站并使用以下代码显示内容时:
我得到以下输出:
我也得到与 urllib2 相同的结果。现在有趣的是,此 URL 仅适用于 Shiretoko Web 浏览器 v3.5.7。(当我说它有效时,我的意思是它给我带来了正确的页面)。当我将此 URL 输入 Firefox 3.0.15 或 Konqueror v4.2.2 时。我得到完全相同的错误页面(带有“无效输入数据”)。我不知道是什么造成了这种差异以及如何使用 Python 获取此页面。有任何想法吗?
谢谢
python - python FancyURLopener 超时
有没有办法为 FancyURLopener() 设置连接超时?我正在使用 FancyURLopener.retrieve() 下载文件,但有时它只是卡住了,仅此而已......我认为这是因为它仍在尝试连接并且不可能。那么有没有办法设置超时?
感谢您的每一个回复
python - Python:ImportError 没有名为 urllib 的模块
我刚从 Linode 租了一个 VPS,它有 python2.5 和 ubuntu 8.04。python
当我从shell运行这个命令时:
我得到:
可能是什么原因?如何将此模块添加到python?不是预装了基础版吗?
会不会是 PYTHONPATH 问题?
python - Python:当我需要 ASCII 时,使用 urllib 获取 SVG 文件正在返回二进制文件
我正在使用 urllib(在 Python 中)来获取 SVG 文件:
产生以下输出:
当我期待更多这样的时候:
我想这是二进制与 ASCII 的问题。任何人都可以帮助我(Python 新手)进行适当的转换,以便我可以继续解析和操作 SVG 代码吗?
python - I/O 错误(套接字错误):[Errno 111] 连接被拒绝
我有一个使用 urllib 定期获取 url 的程序,我看到间歇性错误,例如:
I/O 错误(套接字错误):[Errno 111] 连接被拒绝。
它在 90% 的时间里都能正常工作,但在其他 10% 的时间里它都失败了。如果在失败后立即重试获取,则成功。我无法弄清楚为什么会这样。我试图查看是否有可用的端口,它们是可用的。任何调试想法?
有关其他信息,堆栈跟踪是:
编辑 - 谷歌搜索不是很有帮助,我从中得到的是我从中获取的服务器有时会拒绝连接,我如何验证它不是我的代码中的错误,这确实是这种情况?
python - Python 的 urllib2 在某些网站上不起作用
我发现您无法使用 Python 的 urllib2(或 urllib)从某些站点读取内容。一个例子...
当您使用浏览器访问该站点时,这些站点就会起作用。我什至可以使用 PHP 抓取它们(没有尝试其他语言)。我见过其他有同样问题的网站——但现在不记得网址了。
我的问题是...
- 这个问题的原因是什么?
- 任何解决方法?
asp.net - 使用 Python 的 urllib 从通过 __doPostBack() 完成的页面检索信息?
我正在尝试解析一个页面,该页面具有加载了 Javascript __doPostBack() 函数的不同部分。
链接示例如下: javascript:__doPostBack('ctl00$cphMain$ucOemSchPicker$dlSch$ctl03$btnSch','')
单击此按钮后,浏览器不会获取新 URL,而是会更新网页的一部分以反映新信息。
我会将什么传递给 urllib 函数来完成操作?
python - 如何使用 python urllib 忽略 Windows 代理设置?
我希望 Python 在使用urllib
. 我设法做到这一点的唯一方法是禁用 Internet Explorer 上的所有代理设置。有什么程序化的方式吗?
os.environ['no_proxy']
不是一个好的选择,因为我想避免所有地址的代理。