问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3017 浏览

python - 为什么 render / requests-html 不抓取动态内容?

长话短说:从 Selenium 切换到 Requests(-html)。

工作正常,但并非在所有情况下。

页面:https ://www.winamax.fr/paris-sportifs/sports/1/1/1

加载后,它会通过英语比赛(例如:谢菲尔德联队 - 西汉姆联队)对动态内容进行收费。

但是当我尝试这样做时:

游戏不显示在输出中。

为什么 ?谢谢 !

0 投票
1 回答
415 浏览

python - 网络抓取公共 Github 存储库的问题

我正在尝试抓取公共 Github 存储库(https://github.com/stlrda/redb_python/tree/master/python/DAGs),以便从每个文件中获取名称和日期时间。我在下面发布的代码可以工作,但不是所有时间。有时,当它运行该行时,我会收到一个 Index out of range 错误DAGs[counter]['age'] = x.find('.no-wrap')[0].attrs['datetime']。我很困惑为什么这段代码有时会起作用,而有时却找不到日期时间。关于如何解决此问题以找到每次运行的日期时间的任何想法?

当代码失败时,这里是 gitTable 变量包含的内容:

并且 gitTable 列表中这些项目之一的 html 是:

0 投票
1 回答
755 浏览

python - 如何获取网页中的所有可见文本(不是 html 源代码)?

例如,我想在“www.google.com”上显示文本,就像在 chrome 中打开它并按 ctrl+a & ctrl+c:

代替:

我已经尝试过 requests_html 模型,例如:

但它仍然像打击一样显示html:

那么,我怎样才能在页面上显示所有文本,比如按 ctrl+a 和 ctrl+c?

谢谢。

0 投票
1 回答
273 浏览

python - 创建多个异步请求

我刚刚开始探索这个名为Requests-Html 的新库,我刚刚通过Corey Schafer 教程发现了它,挑战是创建 n 个不同请求的异步调用

因此,例如,我们有以下代码,运行时间约为 3.6 秒:

问题是,如果我想用这个库创建一个 500 的异步请求该怎么办?不可能我必须编写 500 个不同的函数,对吧?

我试图用函数生成器创建一个列表,这样我就可以在其中自动传递n 个不同的函数,:

但我明白了

0 投票
0 回答
394 浏览

python - 如何使用请求更改某些内容的 HTML 值?

我想更改网站中表单的 HTML 值。基本上只是将文本输入到搜索算法中。这是我的代码:

我想更改建议搜索的值,当您打印findsearch它以结束时

如何使用请求更改值?

好的,所以您似乎不能使用请求来执行此操作。这是我使用硒的解决方案。您还必须导入webdriverKeys

0 投票
2 回答
702 浏览

javascript - 无法在 python 上使用 requests-html 库运行 JavaScript

我需要从一些包含一些 javascript 代码的链接中提取一些信息。我知道如何使用 Selenium 来做到这一点,但这需要很多时间,我需要更有效的方法来实现这一目标。

我浏览了 requests-html 库,对于我的目的来说,它看起来非常健壮,但不幸的是,它看起来不像我能够用它运行 javascript。

我从以下链接阅读了文档https://requests-html.readthedocs.io/en/latest/

并尝试了以下代码:

运行此代码后,我没有得到任何结果,即使如果我从浏览器打开链接,该类仍然存在。

我也尝试在没有帮助的情况下对我的请求使用标头。我为另一个链接( https://web.archive.org/web/ */stackoverflow.com)尝试了相同的代码(当然,使用不同的 html 标记),但我得到了一些 html 文本,其中包括一个显示我的浏览器的响应必须支持javascript。我这部分的代码:

我得到的回应:

任何帮助,将不胜感激。谢谢!

0 投票
1 回答
215 浏览

python - 如何使用 python :: style display:none 抓取隐藏的网站

我试图抓取网站,但遇到了一个问题:网站中的数据被隐藏了,当我点击“+”号时,它显示了结果。

如何使用 python 抓取这些数据?

在此处输入图像描述

0 投票
0 回答
169 浏览

python-3.x - 运行 requests-html 时证书过期

我一直在尝试requests-html在 venv 环境中使用(python 3.7.0 - MacOS 10.15.1),但是我正在处理一些证书问题(我不在任何代理/防火墙后面):

主要调用是:

运行 GET 方法时引发异常,如下所示:

有关如何解决此问题的任何提示?这个想法是抓取一些使用 javascript 生成 cookie 的网站,requests-html据说可以解决渲染问题(发生在常规requests包上)。

0 投票
1 回答
68 浏览

flask - 如何使用 GET/POST 将 GET 发送到烧瓶

在模板文件夹中我有 index.html 和 template.html 我正在尝试从 index.html 中的表单获取数据,处理数据并将结果发布到 template.html 为

.

索引.html:

模板.html:

烧瓶:

谁能指出我到底在哪里弄乱了 GET/POST 请求和任何可能的解决方案?

0 投票
1 回答
1781 浏览

javascript - 如何在滚动时从使用 javascript 加载元素的网页中抓取?

我的朋友问我是否可以编写一个网络抓取脚本来从特定网站收集 pokemon 的数据。

我编写了以下代码来呈现 javascript 并获取一个特定的类来从网站 ( https://www.smogon.com/dex/ss/pokemon/ ) 收集数据。

问题是,当您向下滚动页面时,页面会加载更多条目。有没有办法从这个刮?我是网络抓取的新手,所以我不完全确定这一切是如何运作的。