问题标签 [urllib3]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 python 请求模块在网页上单击提交按钮“确定”
我有一个可以使用网页界面管理的设备。
设备地址可以是:
在网页中使用提交按钮:
我正在尝试使用 python 模块请求来自动单击该网页上的按钮。
有任何想法吗??
python-3.x - Python3,Urllib3:对单个站点的快速服务器友好请求,大约 100,000 个请求?
我正在尝试通过 Web API 获取整个 Old Bailey Online 档案的一个子集。
我的问题是我的实现不仅速度很慢,而且服务器很快(大约 10 分钟)停止为我的请求提供服务。
目前我正在使用 urllib3 的开发版本:
然后我用这个 http 池运行我的所有请求。我选择的数字相当荒谬,但最好的数字是 8(
每年,我需要针对不同的场景发出 70 个并发请求,超过 243 年。我尝试使用@shazow 的workerpool(根据https://stackoverflow.com/a/24046895/398969修改为与python3.4 一起使用),同时在一年内,多线程年内,这也不是很好。主要是由于服务器超时和我的无知。
DNS 查找是否引入了明显的延迟?我不能使用 Ip,因为域是 apache 虚拟主机(或者我可以吗?)
苏。真正的问题:我怎样才能从同一台服务器“很好地”及时地下载数十万次?我仍然希望它需要一天左右 8)
python - Python Requests 库在日志记录中引发异常
Pythonrequests
库在其日志记录行为方面似乎有一些相当奇怪的怪癖。使用最新的 Python 2.7.8,我有以下代码:
我的程序似乎正常退出,但是在它创建的日志文件(mylog.txt)中,我总是发现以下异常:
如果我删除它:
requests.get('http://localhost:9100/notify', params=payload)
那么异常就消失了。
我到底做错了什么,我该如何解决这个问题?我正在使用请求 v2.4.3。
python - python3和urllib3中的编码问题
我正在尝试编写一个 python 程序,它可以帮助我自动从不同的网站获取一些新闻。目前我正在使用 python3 和 beautifulsoup4 和 urllib3 来获取远程页面并解析它。
当我尝试从此页面读取文本时出现问题,因为它们包含非 ascii 字符,例如 À à é ó...等等...
我试图在检索页面后将其从 utf-8 解码以将其放入变量中,然后将其写入文件中但没有成功......即使在阅读了解决此问题的不同方法之后,我也无法弄清楚一个可行的解决方案。
我想知道你们中是否有人遇到过我同样的情况..
这是我的代码
python - 使用 WorkerPool 通过 URL 列表进行多线程处理
我正在尝试使用多线程来遍历 url 的 txt 文件并抓取在每个 url 中找到的内容。这适用于大约 20 个 URL(数量不一致),但随后始终卡在文件中的最后一个 URL 上。它似乎没有按顺序进行。
我不知道为什么会卡住或从哪里开始,所以非常感谢您的帮助。
这是 url 的示例列表:
python-3.x - Python 编码的字符串仍然是二进制格式
我正在尝试使用 urllib3 和美丽的汤进行一些网站抓取。Python 3 编码/解码让我大吃一惊。这是我的代码
由于我在调用美丽汤之前已经完成了解码r.data.decode('utf-8')
,为什么我需要再次对其进行编码,为什么即使将其转换为字符串后它仍然显示 b'' 标记
python - urllib3 使用指定的用户代理下载文件
更新用户代理信息的正确方法是什么urllib3
?
如何检查用户代理信息是否确实已更改并正在使用?
例如:
当我创建一个PoolManager
at 时,http
我查看了它dir(http)
,发现它http.headers
默认为空并更新为指定的用户代理信息,但它被使用了吗?有没有无需查看apache
日志即可进行检查?
/var/log/apache2/access.log
并在尝试更新用户代理后进行实际检查:
python-3.x - 如何使用 urllib3 下载文件?
这是基于此站点上的另一个问题:What's the best way to download file using urllib3 但是,我不能在那里发表评论,所以我问了另一个问题:
如何使用 urllib3 下载(更大的)文件?
我尝试使用与 urllib2 相同的代码(在 Python 3 中从 web 下载文件),但使用 urllib3 失败:
这表示“字节”对象没有“读取”属性
然后我尝试使用该问题中的代码,但它陷入了无限循环,因为数据始终为“0”:
但是,如果我读取内存中的所有内容,则文件会正确下载:
我不想这样做,因为我可能会下载非常大的文件。不幸的是,urllib 文档没有涵盖本主题中的最佳实践。
(另外,请不要建议 requests 或 urllib2,因为它们在自签名证书方面不够灵活。)
python - 如何修复 ImportError:没有名为 packages.urllib3 的模块?
我在 Ubuntu 机器上运行 Python 2.7.6。当我twill-sh
在终端中运行(Twill 是用于测试网站的浏览器)时,我得到以下信息:
但是,我可以在 Python 控制台中导入 urllib 就好了。可能是什么原因?