问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
903 浏览

python - 烧瓶:RunTimeError:线程中没有当前事件循环

我正在制作一个简单的烧瓶应用程序,它从外部网站返回结果。用户将数据输入我的网站。此数据用于加载另一个站点。数据被提取并以列表的形式返回。该程序独立工作,但不能作为烧瓶应用程序的一部分工作。我已经尝试使用 requests_HTML 库使用它的异步工具,并且我尝试使用 Pyro4 将请求发送到外部进程。但我总是想出这个错误的一些版本:

RunTimeError:线程中没有当前事件循环......

在我看来,当我的一个导入模块运行一个线程时,Flask 不喜欢它。我很想知道为什么会发生这种情况,它们在烧瓶内部工作中是否意味着它不适用于线程或异步或其他东西?任何对一些额外资源或信息的指导将不胜感激

这是我的烧瓶应用程序:

这将获得 stackoverflow 问题页面并获取最后发布的问题的摘要。我已经在一个独立的 python 文件中尝试了这段代码,它工作正常。(即在烧瓶应用程序之外,只需将结果打印到命令行)

这是来自烧瓶调试器的回溯:

谁能解释为什么烧瓶无法完成这些任务?

干杯

PS这里是我的简单HTML(虽然应用程序还不能呈现它。):

这是我在烧瓶应用程序之外的脚本(它有效):

0 投票
2 回答
117 浏览

python - 如何删除 requests_html 中的 adsense 代码?

我正在使用requests_html图书馆来抓取一个网站,但我同时从那个抓取的文本中获得了来自该网站的adsense 。该示例如下所示:

一些文本一些文本一些文本一些文本然后这个: (adsbygoogle = window.adsbygoogle || []).push({});

一些文本 一些文本 一些文本 换行后的一些文本 然后是: sas.cmd.push(function() { sas.call("std", { siteId: 301357, // pageId: 1101926, // Page : Seneweb_AF/rg formatId: 49048, // 格式 : Pave 2 300x250 target: '' // Ciblage }); });

现在我怎样才能摆脱上面的斜体粗体文字?

0 投票
1 回答
372 浏览

python - requests_html 没有运行 java 脚本

我正在尝试使用以下代码来抓取javascript 网站。在网站打开时的浏览器中,它会加载我想要进入的内容<div class=results>。我的问题是,在 jupyter 笔记本中运行此代码时,此 div 似乎是空的。

这解决了空的div:

对于上面提供的 url,在浏览器中,使用检查相同的 url 相同的 div 解析为具有内容的 div。

编辑:根据 requests_html 库文档,这可以呈现 JavaScript。 https://pypi.org/project/requests-html/

0 投票
1 回答
1864 浏览

python - 如何使用 requests_html 异步获取() URL 列表?

我正在尝试使用 python 包resuqests_html异步 get() 一个 URL 列表,类似于使用 Python 3.6.5 和 requests_html 0.10.0的 README 中的异步示例。

我的理解是 AsyncHTMLSession.run() 应该与 asyncio.gather() 的工作方式非常相似:你给它一堆等待,它运行所有的。这是不正确的吗?

这是我正在尝试的代码,我希望它应该获取页面并存储响应:

但我得到了这个例外:

难道我做错了什么?

0 投票
1 回答
609 浏览

python - 尝试使用 requests-html (Python 3.6) 抓取 JS 网页时出现问题

上周我试图从 Epic Games Store 网页 ( https://www.epicgames.com/store/en-US/ ) 上抓取信息,我第一次尝试使用 Requests 模块,但我很快意识到我需要一个支持 javascript 网站的模块。这就是我现在正在尝试的,但是有一个问题......当我在页面上使用“检查元素”时,一切都很好,但是当我执行这个时:

结果是一个不可读的 html 文件,没有加载大部分元素。结果:https ://pastebin.com/zQ9m1gr2

您可以对此进行测试,从网络上选择一个游戏,然后 ctrl + f 它的名称在结果文件中。你会意识到没有匹配项。我能做些什么?

先感谢您!:)

编辑:当我手动从浏览器下载 HTML 时,它发生的情况完全相同。

0 投票
0 回答
412 浏览

python - 在 python 中使用 requests-html 抓取之前渲染元素不起作用

我正在尝试抓取此页面(例如): https ://super.walmart.com.mx/papel-higienico/papel-higienico-petalo-rendimax-12-rollos-con-320-hojas-dobles/00750194345845

...获得产品价格。使用 requests-html 我可以在其他页面中获取动态内容,但它不适用于 wallmart。我知道我可以用 selenium 做到这一点,但我试图理解为什么它不能与 requests-html 一起使用,以及(如果可能的话)我该怎么做。

这是我当前的代码:

0 投票
1 回答
364 浏览

python - 使用请求 html 抓取时空格变成问号

我正在开发一个使用 requests_html 模块的刮板。我制作了一个程序,该程序应该从我的站点获取一些用户名,但是它将空格作为问号返回。

这是我的代码:

0 投票
2 回答
1280 浏览

javascript - Python Web-scraping,如何使用 Requests-HTML 库单击“下一步”

我正在尝试使用 python requests-html 模块从“ https://fortune.com/global500/2019/search/ ”获取数据。我能够获得第 100 个项目(来自第 1 页),因为该页面启用了 javascript。我们需要点击“下一步”来加载第二页,目前我只得到前 100 个项目。

当我在浏览器上单击“下一步”时,地址栏上的 url 没有改变。所以我不知道如何使用 requests-html 获取下一页。

我真的很感谢你的时间。

0 投票
1 回答
103 浏览

python-3.x - Python 请求无法从 API 检索数据

请找到以下代码

我得到的回应是

实际需要的响应:

我错过了什么吗?

0 投票
3 回答
279 浏览

python-3.x - 从 a中刮取数据
用 BeautifulSoup 和 Requests 和 Pandas

我试图从这个 HTML 代码中提取“T”、“0-0”和“(2 OT)”。我开始编写下面的代码,但新手太多,无法弄清楚。谢谢你的帮助。