问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 对于 fast.com,Requests-html 包无法正确呈现
我正在使用 python 3.7 开发一个网络抓取应用程序。我正在使用 requests-html 来解析数据。到目前为止,我已经尝试了以下代码来尝试使用渲染功能(因为 fast.com 上的速度数据是通过 javascript 加载的)。
speed-value
是包含速度数据的 div 使用的 id 属性。
但它仍然将速度值打印为 0。
asp.net-core - Python 请求和 ASP.Net Core API 之间的 Post 值始终为空
我有一些简单的 Python
和一个简单的 ASP.Net Core API
当我对 C# 代码进行断点时,传入参数“值”始终为空。我尝试发送 JSON 而不是简单的字符串,在 Python 中将标头设置为“text/plain”、“application/json”或“application/x-www-form-urlencoded”,但结果是一样的。我曾尝试[FromBody]
在 ASP.Net Core API 中装饰参数,但随后出现 400 错误(“输入无效”)。
我错过了什么?
(编辑。这是一个 hacky 修复,绝对不是答案,但它可以帮助人们了解问题所在。
然后正确设置值。但是,如果该值位于帖子正文中,那么使用[FromBody]
会导致 400 错误令人沮丧。)
python - 如何在多线程环境中使用 requests-html 呈现异步页面?
为了为具有动态加载内容的页面创建爬虫,requests-html
提供模块以在 JS 执行后获取渲染页面。但是,当尝试在多线程实现中AsyncHTMLSession
调用该arender()
方法时,生成的 HTML 不会改变。
例如,在源代码中提供的 URL 中,表格 HTML 值默认为空,并且在脚本执行后,由arender()
预期将值插入标记的方法模拟,尽管在源代码中没有注意到可见的变化。
python - Python:使用 requests_html 时出现 websockets.exceptions.ConnectionClosed 错误
我正在使用以下requests_html
库:
每隔一段时间我就会收到这个错误:
并且代码卡在那里并且不做任何事情。有没有办法让代码继续并处理for循环中的下一个url?
web-scraping - 在 Python3.6.5 中请求获取 SSL 证书错误
我曾尝试使用请求获取以下 URL,但收到 SSL 证书错误。我已经尝试了所有早期的堆栈溢出查询,但似乎没有任何工作代码:
我给了verify=False,还是不行
错误:
jquery - Python requests_html 通过使用 JQuery 单击按钮来提交表单
我正在探索Kenneth Reitz 的 requests_html并尝试使用 Jquery 提交一个 JS 渲染网页的表单。我不知道该怎么做,但这是我的尝试:
但是,该值没有在输入字段上设置并且它没有提交表单......有没有办法模拟按钮点击或通过xhr
requests_html 提交表单?
例如:如果我们使用 selenium,我们可以通过键入以下内容轻松模拟按钮单击:
python - 如何使用请求跟踪页面重定向
我有这个简单的代码:
执行后,打印:
我想看看:
在到达之前发生了多少重定向
https://uk.yahoo.com/?p=us
(显然,我https://yahoo.com
最初输入的重定向)?我还想保存每一页的内容,而不仅仅是最后一页。这个怎么做?
python-requests - 忽略设置 OP_NO_SSLv3 的请求
我正在尝试在私有服务器上获取域,但由于 sslv3 警报握手失败,请求不断失败。
根据此处的博客文章https://lukasa.co.uk/2017/02/Configuring_TLS_With_Requests/ ,我已将会话配置为忽略 sslv3, 但它继续将其用作异常消息中的状态。
有什么想法我在这里做错了吗?
这是我的最小脚本:
发生异常:requests.exceptions.SSLError HTTPSConnectionPool(host='my-broken-intranet-domain.net', port=4942): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, '[SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 警报握手失败 (_ssl.c:1056)')))
使用 Curl,请求通过,协商的 CIPHER 和 TLS 为:
请求版本:2.21.0
urllib3 版本:1.24.1
OpenSSL 1.1.0j
谢谢您的帮助!
python - 刮取 ASPX 形式并避免使用 Selenium
我之前问过(见这里)如何从 ASPX 表单中抓取结果。表单在新选项卡中呈现输出(通过使用window.open
JS 中的函数)。在我之前的帖子中,我没有发出正确的 POST 请求,我解决了这个问题。
以下代码成功地从表单中检索到具有正确请求标头的 HTML 代码,它与我在 Chrome 检查器中看到的 POST 响应完全相同。但是(...)我无法检索数据。用户做出选择后,会打开一个新的弹出窗口,但我无法捕捉到它。弹出窗口有一个新的 URL,其信息不是请求响应正文的一部分。
请求网址:https://apps.neb-one.gc.ca/CommodityStatistics/Statistics.aspx
弹窗网址【我要下载的数据】:https://apps.neb-one.gc.ca/CommodityStatistics/ViewReport.aspx
requests
有什么方法可以使用和从弹出窗口中检索数据bs4
?我注意到它html-requests
可以解析和渲染 JS,但我所有的试验都没有成功。
url 源代码显示了这个 JS 代码,我猜它是打开带有数据的弹出窗口的代码:
但我无法访问它。
python - 从 python 中的“请求”模块写入文件时添加不必要的字符
我有一个由每行 URL 组成的文本文件,如下所示:
我使用以下脚本:
问题是,当我将生成的 URL 写入文件时,我会%0A
在每一行的末尾得到附加信息。你能向我解释为什么会这样吗?
可以通过向strip
输入添加函数来解决该问题:
我的问题:
1)我不明白为什么需要这样做?
2) 搜索about %0A
,变成换行符。这与换行符不同。你能解释一下它是如何添加的吗?是我名单的错还是图书馆的错?
我在其他程序中使用了相同的列表,我似乎没有类似的问题。为什么这里有问题?是图书馆的错吗?还是列表的错?
编辑:我使用 Ubuntu 18.04 和 python 3.6.5