“python-requests-html”的相关标签问题

0 投票

1 回答

1249 浏览

python-3.x - 对于 fast.com，Requests-html 包无法正确呈现

我正在使用 python 3.7 开发一个网络抓取应用程序。我正在使用 requests-html 来解析数据。到目前为止，我已经尝试了以下代码来尝试使用渲染功能（因为 fast.com 上的速度数据是通过 javascript 加载的）。

speed-value是包含速度数据的 div 使用的 id 属性。

但它仍然将速度值打印为 0。

python-3.x python-requests-html

2019-02-02T22:14:39.810

0 投票

2 回答

1183 浏览

asp.net-core - Python 请求和 ASP.Net Core API 之间的 Post 值始终为空

我有一些简单的 Python

和一个简单的 ASP.Net Core API

当我对 C# 代码进行断点时，传入参数“值”始终为空。我尝试发送 JSON 而不是简单的字符串，在 Python 中将标头设置为“text/plain”、“application/json”或“application/x-www-form-urlencoded”，但结果是一样的。我曾尝试[FromBody]在 ASP.Net Core API 中装饰参数，但随后出现 400 错误（“输入无效”）。

我错过了什么？

（编辑。这是一个 hacky 修复，绝对不是答案，但它可以帮助人们了解问题所在。

然后正确设置值。但是，如果该值位于帖子正文中，那么使用[FromBody]会导致 400 错误令人沮丧。）

2019-02-08T14:56:23.707

0 投票

1 回答

4405 浏览

python - 如何在多线程环境中使用 requests-html 呈现异步页面？

为了为具有动态加载内容的页面创建爬虫，requests-html提供模块以在 JS 执行后获取渲染页面。但是，当尝试在多线程实现中AsyncHTMLSession调用该arender()方法时，生成的 HTML 不会改变。

例如，在源代码中提供的 URL 中，表格 HTML 值默认为空，并且在脚本执行后，由arender()预期将值插入标记的方法模拟，尽管在源代码中没有注意到可见的变化。

python multithreading web-scraping python-requests-html

2019-02-19T14:45:13.227

0 投票

0 回答

738 浏览

python - Python：使用 requests_html 时出现 websockets.exceptions.ConnectionClosed 错误

我正在使用以下requests_html库：

每隔一段时间我就会收到这个错误：

并且代码卡在那里并且不做任何事情。有没有办法让代码继续并处理for循环中的下一个url？

python websocket python-3.6 python-requests-html

2019-02-20T07:16:53.233

0 投票

2 回答

2913 浏览

web-scraping - 在 Python3.6.5 中请求获取 SSL 证书错误

我曾尝试使用请求获取以下 URL，但收到 SSL 证书错误。我已经尝试了所有早期的堆栈溢出查询，但似乎没有任何工作代码：

我给了verify=False，还是不行

错误：

web-scraping python-requests python-3.6 scrapy-spider python-requests-html

2019-02-22T14:56:05.597

0 投票

1 回答

3026 浏览

jquery - Python requests_html 通过使用 JQuery 单击按钮来提交表单

我正在探索Kenneth Reitz 的 requests_html并尝试使用 Jquery 提交一个 JS 渲染网页的表单。我不知道该怎么做，但这是我的尝试：

但是，该值没有在输入字段上设置并且它没有提交表单......有没有办法模拟按钮点击或通过xhrrequests_html 提交表单？

例如：如果我们使用 selenium，我们可以通过键入以下内容轻松模拟按钮单击：

jquery python-3.x python-requests-html

2019-02-26T15:33:37.773

0 投票

1 回答

3298 浏览

python - 如何使用请求跟踪页面重定向

我有这个简单的代码：

执行后，打印：

我想看看：

在到达之前发生了多少重定向https://uk.yahoo.com/?p=us（显然，我https://yahoo.com最初输入的重定向）？
我还想保存每一页的内容，而不仅仅是最后一页。这个怎么做？

python python-3.x web-scraping python-requests python-requests-html

2019-02-28T08:15:18.877

0 投票

1 回答

322 浏览

python-requests - 忽略设置 OP_NO_SSLv3 的请求

我正在尝试在私有服务器上获取域，但由于 sslv3 警报握手失败，请求不断失败。

根据此处的博客文章https://lukasa.co.uk/2017/02/Configuring_TLS_With_Requests/ ，我已将会话配置为忽略 sslv3，但它继续将其用作异常消息中的状态。

有什么想法我在这里做错了吗？

这是我的最小脚本：

发生异常：requests.exceptions.SSLError HTTPSConnectionPool(host='my-broken-intranet-domain.net', port=4942): Max retries exceeded with url: / (Caused by SSLError(SSLError(1, '[SSL: SSLV3_ALERT_HANDSHAKE_FAILURE] sslv3 警报握手失败 (_ssl.c:1056)')))

使用 Curl，请求通过，协商的 CIPHER 和 TLS 为：

请求版本：2.21.0
urllib3 版本：1.24.1
OpenSSL 1.1.0j

谢谢您的帮助！

python-requests python-requests-html

2019-03-01T06:14:01.790

0 投票

1 回答

1065 浏览

python - 刮取 ASPX 形式并避免使用 Selenium

我之前问过（见这里）如何从 ASPX 表单中抓取结果。表单在新选项卡中呈现输出（通过使用window.openJS 中的函数）。在我之前的帖子中，我没有发出正确的 POST 请求，我解决了这个问题。

以下代码成功地从表单中检索到具有正确请求标头的 HTML 代码，它与我在 Chrome 检查器中看到的 POST 响应完全相同。但是（...）我无法检索数据。用户做出选择后，会打开一个新的弹出窗口，但我无法捕捉到它。弹出窗口有一个新的 URL，其信息不是请求响应正文的一部分。

请求网址：https://apps.neb-one.gc.ca/CommodityStatistics/Statistics.aspx

弹窗网址【我要下载的数据】：https://apps.neb-one.gc.ca/CommodityStatistics/ViewReport.aspx

requests有什么方法可以使用和从弹出窗口中检索数据bs4？我注意到它html-requests可以解析和渲染 JS，但我所有的试验都没有成功。

url 源代码显示了这个 JS 代码，我猜它是打开带有数据的弹出窗口的代码：

但我无法访问它。

python selenium web-scraping python-requests python-requests-html

2019-03-01T19:22:06.453

0 投票

2 回答

603 浏览

python - 从 python 中的“请求”模块写入文件时添加不必要的字符

我有一个由每行 URL 组成的文本文件，如下所示：

我使用以下脚本：

问题是，当我将生成的 URL 写入文件时，我会%0A在每一行的末尾得到附加信息。你能向我解释为什么会这样吗？

可以通过向strip输入添加函数来解决该问题：

我的问题：

1）我不明白为什么需要这样做？

2) 搜索about %0A，变成换行符。这与换行符不同。你能解释一下它是如何添加的吗？是我名单的错还是图书馆的错？

我在其他程序中使用了相同的列表，我似乎没有类似的问题。为什么这里有问题？是图书馆的错吗？还是列表的错？

编辑：我使用 Ubuntu 18.04 和 python 3.6.5

python python-3.x python-requests python-requests-html python-responses

2019-03-02T12:41:25.467

问题标签 [python-requests-html]

Reference