问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1249 浏览

python-3.x - 对于 fast.com,Requests-html 包无法正确呈现

我正在使用 python 3.7 开发一个网络抓取应用程序。我正在使用 requests-html 来解析数据。到目前为止,我已经尝试了以下代码来尝试使用渲染功能(因为 fast.com 上的速度数据是通过 javascript 加载的)。

speed-value是包含速度数据的 div 使用的 id 属性。

但它仍然将速度值打印为 0。

0 投票
2 回答
1183 浏览

asp.net-core - Python 请求和 ASP.Net Core API 之间的 Post 值始终为空

我有一些简单的 Python

和一个简单的 ASP.Net Core API

当我对 C# 代码进行断点时,传入参数“值”始终为空。我尝试发送 JSON 而不是简单的字符串,在 Python 中将标头设置为“text/plain”、“application/json”或“application/x-www-form-urlencoded”,但结果是一样的。我曾尝试[FromBody]在 ASP.Net Core API 中装饰参数,但随后出现 400 错误(“输入无效”)。

我错过了什么?

(编辑。这是一个 hacky 修复,绝对不是答案,但它可以帮助人们了解问题所在。

然后正确设置值。但是,如果该值位于帖子正文中,那么使用[FromBody]会导致 400 错误令人沮丧。)

0 投票
1 回答
4405 浏览

python - 如何在多线程环境中使用 requests-html 呈现异步页面?

为了为具有动态加载内容的页面创建爬虫,requests-html提供模块以在 JS 执行后获取渲染页面。但是,当尝试在多线程实现中AsyncHTMLSession调用该arender()方法时,生成的 HTML 不会改变。

例如,在源代码中提供的 URL 中,表格 HTML 值默认为空,并且在脚本执行后,由arender()预期将值插入标记的方法模拟,尽管在源代码中没有注意到可见的变化。

0 投票
0 回答
738 浏览

python - Python:使用 requests_html 时出现 websockets.exceptions.ConnectionClosed 错误

我正在使用以下requests_html库:

每隔一段时间我就会收到这个错误:

并且代码卡在那里并且不做任何事情。有没有办法让代码继续并处理for循环中的下一个url?

0 投票
2 回答
2913 浏览

web-scraping - 在 Python3.6.5 中请求获取 SSL 证书错误

我曾尝试使用请求获取以下 URL,但收到 SSL 证书错误。我已经尝试了所有早期的堆栈溢出查询,但似乎没有任何工作代码:

我给了verify=False,还是不行

错误:

0 投票
1 回答
3026 浏览

jquery - Python requests_html 通过使用 JQuery 单击按钮来提交表单

我正在探索Kenneth Reitz 的 requests_html并尝试使用 Jquery 提交一个 JS 渲染网页的表单。我不知道该怎么做,但这是我的尝试:

但是,该值没有在输入字段上设置并且它没有提交表单......有没有办法模拟按钮点击或通过xhrrequests_html 提交表单?

例如:如果我们使用 selenium,我们可以通过键入以下内容轻松模拟按钮单击:

0 投票
1 回答
3298 浏览

python - 如何使用请求跟踪页面重定向

我有这个简单的代码:

执行后,打印:

我想看看:

  1. 在到达之前发生了多少重定向https://uk.yahoo.com/?p=us(显然,我https://yahoo.com最初输入的重定向)?

  2. 我还想保存每一页的内容,而不仅仅是最后一页。这个怎么做?

0 投票
1 回答
322 浏览

python-requests - 忽略设置 OP_NO_SSLv3 的请求

我正在尝试在私有服务器上获取域,但由于 sslv3 警报握手失败,请求不断失败。

根据此处的博客文章https://lukasa.co.uk/2017/02/Configuring_TLS_With_Requests/ ,我已将会话配置为忽略 sslv3, 但它继续将其用作异常消息中的状态。

有什么想法我在这里做错了吗?

这是我的最小脚本:

发生异常:requests.exceptions.SSLError HTTPSConnectionPool(host='my-broken-intranet-domain.net', port=4942): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, '[SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 警报握手失败 (_ssl.c:1056)')))

使用 Curl,请求通过,协商的 CIPHER 和 TLS 为:

请求版本:2.21.0
urllib3 版本:1.24.1
OpenSSL 1.1.0j

谢谢您的帮助!

0 投票
1 回答
1065 浏览

python - 刮取 ASPX 形式并避免使用 Selenium

我之前问过(见这里)如何从 ASPX 表单中抓取结果。表单在新选项卡中呈现输出(通过使用window.openJS 中的函数)。在我之前的帖子中,我没有发出正确的 POST 请求,我解决了这个问题。

以下代码成功地从表单中检索到具有正确请求标头的 HTML 代码,它与我在 Chrome 检查器中看到的 POST 响应完全相同。但是(...)我无法检索数据。用户做出选择后,会打开一个新的弹出窗口,但我无法捕捉到它。弹出窗口有一个新的 URL,其信息不是请求响应正文的一部分。

请求网址:https://apps.neb-one.gc.ca/CommodityStatistics/Statistics.aspx

弹窗网址【我要下载的数据】:https://apps.neb-one.gc.ca/CommodityStatistics/ViewReport.aspx

requests有什么方法可以使用和从弹出窗口中检索数据bs4?我注意到它html-requests可以解析和渲染 JS,但我所有的试验都没有成功。

url 源代码显示了这个 JS 代码,我猜它是打开带有数据的弹出窗口的代码:

但我无法访问它。

0 投票
2 回答
603 浏览

python - 从 python 中的“请求”模块写入文件时添加不必要的字符

我有一个由每行 URL 组成的文本文件,如下所示:

我使用以下脚本:

问题是,当我将生成的 URL 写入文件时,我会%0A在每一行的末尾得到附加信息。你能向我解释为什么会这样吗?

可以通过向strip输入添加函数来解决该问题:

我的问题:

1)我不明白为什么需要这样做?

2) 搜索about %0A,变成换行符。这与换行符不同。你能解释一下它是如何添加的吗?是我名单的错还是图书馆的错?

我在其他程序中使用了相同的列表,我似乎没有类似的问题。为什么这里有问题?是图书馆的错吗?还是列表的错?

编辑:我使用 Ubuntu 18.04 和 python 3.6.5