问题标签 [urllib3]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
9144 浏览

python - 使用 python 请求模块在网页上单击提交按钮“确定”

我有一个可以使用网页界面管理的设备。

设备地址可以是:

在网页中使用提交按钮:

我正在尝试使用 python 模块请求来自动单击该网页上的按钮。

有任何想法吗??

0 投票
1 回答
819 浏览

python-3.x - Python3,Urllib3:对单个站点的快速服务器友好请求,大约 100,000 个请求?

我正在尝试通过 Web API 获取整个 Old Bailey Online 档案的一个子集。

我的问题是我的实现不仅速度很慢,而且服务器很快(大约 10 分钟)停止为我的请求提供服务。

目前我正在使用 urllib3 的开发版本:

然后我用这个 http 池运行我的所有请求。我选择的数字相当荒谬,但最好的数字是 8(

每年,我需要针对不同的场景发出 70 个并发请求,超过 243 年。我尝试使用@shazow 的workerpool(根据https://stackoverflow.com/a/24046895/398969修改为与python3.4 一起使用),同时在一年内,多线程年内,这也不是很好。主要是由于服务器超时和我的无知。

DNS 查找是否引入了明显的延迟?我不能使用 Ip,因为域是 apache 虚拟主机(或者我可以吗?)

苏。真正的问题:我怎样才能从同一台服务器“很好地”及时地下载数十万次?我仍然希望它需要一天左右 8)

0 投票
2 回答
676 浏览

python - Python Requests 库在日志记录中引发异常

Pythonrequests库在其日志记录行为方面似乎有一些相当奇怪的怪癖。使用最新的 Python 2.7.8,我有以下代码:

我的程序似乎正常退出,但是在它创建的日志文件(mylog.txt)中,我总是发现以下异常:

如果我删除它: requests.get('http://localhost:9100/notify', params=payload) 那么异常就消失了。

我到底做错了什么,我该如何解决这个问题?我正在使用请求 v2.4.3。

0 投票
2 回答
1695 浏览

python - python3和urllib3中的编码问题

我正在尝试编写一个 python 程序,它可以帮助我自动从不同的网站获取一些新闻。目前我正在使用 python3 和 beautifulsoup4 和 urllib3 来获取远程页面并解析它。

当我尝试从此页面读取文本时出现问题,因为它们包含非 ascii 字符,例如 À à é ó...等等...

我试图在检索页面后将其从 utf-8 解码以将其放入变量中,然后将其写入文件中但没有成功......即使在阅读了解决此问题的不同方法之后,我也无法弄清楚一个可行的解决方案。

我想知道你们中是否有人遇到过我同样的情况..

这是我的代码

0 投票
1 回答
471 浏览

python - 使用 WorkerPool 通过 URL 列表进行多线程处理

我正在尝试使用多线程来遍历 url 的 txt 文件并抓取在每个 url 中找到的内容。这适用于大约 20 个 URL(数量不一致),但随后始终卡在文件中的最后一个 URL 上。它似乎没有按顺序进行。

我不知道为什么会卡住或从哪里开始,所以非常感谢您的帮助。

这是 url 的示例列表:

0 投票
1 回答
852 浏览

python-3.x - Python 编码的字符串仍然是二进制格式

我正在尝试使用 urllib3 和美丽的汤进行一些网站抓取。Python 3 编码/解码让我大吃一惊。这是我的代码

由于我在调用美丽汤之前已经完成了解码r.data.decode('utf-8'),为什么我需要再次对其进行编码,为什么即使将其转换为字符串后它仍然显示 b'' 标记

0 投票
1 回答
6383 浏览

python - urllib3 使用指定的用户代理下载文件

更新用户代理信息的正确方法是什么urllib3

如何检查用户代理信息是否确实已更改并正在使用?

例如:

当我创建一个PoolManagerat 时,http我查看了它dir(http),发现它http.headers默认为空并更新为指定的用户代理信息,但它被使用了吗?有没有无需查看apache日志即可进行检查?

/var/log/apache2/access.log并在尝试更新用户代理后进行实际检查:

0 投票
1 回答
12941 浏览

python-3.x - 如何使用 urllib3 下载文件?

这是基于此站点上的另一个问题:What's the best way to download file using urllib3 但是,我不能在那里发表评论,所以我问了另一个问题:

如何使用 urllib3 下载(更大的)文件?

我尝试使用与 urllib2 相同的代码(在 Python 3 中从 web 下载文件),但使用 urllib3 失败:

这表示“字节”对象没有“读取”属性

然后我尝试使用该问题中的代码,但它陷入了无限循环,因为数据始终为“0”:

但是,如果我读取内存中的所有内容,则文件会正确下载:

我不想这样做,因为我可能会下载非常大的文件。不幸的是,urllib 文档没有涵盖本主题中的最佳实践。

(另外,请不要建议 requests 或 urllib2,因为它们在自签名证书方面不够灵活。)

0 投票
6 回答
63404 浏览

python - 如何修复 ImportError:没有名为 packages.urllib3 的模块?

我在 Ubuntu 机器上运行 Python 2.7.6。当我twill-sh在终端中运行(Twill 是用于测试网站的浏览器)时,我得到以下信息:

但是,我可以在 Python 控制台中导入 urllib 就好了。可能是什么原因?

0 投票
14 回答
596517 浏览

python - 抑制 InsecureRequestWarning:在 Python2.6 中发出未经验证的 HTTPS 请求

我在 Python2.6 中使用pyVmomi并使用其中一种连接方法编写脚本:

我收到以下警告:

有趣的是,我没有使用 pip 安装 urllib3(但它在/usr/lib/python2.6/site-packages/requests/packages/urllib3/中)。

我已经按照这里的建议尝试过

但这并没有改变任何东西。