问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
9138 浏览

python - 使用“Requests-HTML”库获取交易价格时遇到问题

我在 python 中编写了一个脚本,以从 javascript 呈现的网页获取最后一笔交易的价格。如果我选择使用selenium. 我的目标不是使用任何浏览器模拟器之类selenium的东西,因为最新版本的Requests-HTML应该能够解析 javascript 加密内容。但是,我无法成功。当我运行脚本时,我收到以下错误。对此的任何帮助将不胜感激。

网站地址:webpage_link

我试过的脚本:

这是完整的追溯:

我要的价格在页面顶部可以看到,就像这样177.59 EUR Last trade price。我希望得到177.59或无论当前价格是多少。

0 投票
2 回答
638 浏览

python - requests-HTML 编码错误

大家好,

当我运行此代码时:

我收到此错误消息:

我认为这是因为某些链接中的非 utf-8 字符。

由于它发生在方法内部,有没有办法处理这个问题?

我是一个初学者,如果我错过了一些明显的东西,我很抱歉。

0 投票
1 回答
2134 浏览

python - 如何使用 python 请求检查 HTML 中的更新

我正在尝试监视页面是否有任何更新。但是,我需要保持相同的会话和 cookie,所以我不能只发送一个全新的请求。

如何在当前请求中检查 HTML 中的更新?页面不仅会更新,还会重定向,但 URL 保持不变。

这是我当前的代码:

编辑:我将使用 while 循环每 5 秒运行一次此函数,以检查状态是否为 =“存在”。

EDIT2:我尝试通过 requests_html 实现它,但我没有得到应有的 cookie:

0 投票
2 回答
1558 浏览

python - 使用 requests-html 解析元素的尾部

我想用 requests-html 0.9.0 解析这样的 HTML 文档:

我需要区分标签内的文本(由它包围)和标签的尾部(从元素到下一个标签的文本)。这是我最初预期的行为:

但是tail没有为Elements 定义。由于 requests-html 提供对内部lxml对象的访问,我们可以尝试从以下位置获取它lxml.etree.Element.tail

lxml 表示中没有尾巴!带有内部文本的标签是可以的,但尾巴似乎被剥离了。如何提取'and some rubbish'

编辑:我发现full_text它只提供内部文本(“完整”就这么多)。full_text这可以实现从中减去的肮脏技巧text,尽管我不肯定如果有任何链接它会起作用。

0 投票
1 回答
829 浏览

python - 带有 Tor 的 Python requests-html

要求是在一定数量的呼叫后匿名报废或更改 IP。我使用https://github.com/kennethreitz/requests-html模块解析 HTML,但出现以下错误,

代码

但它与 requests 模块完美配合,

任何解决 requests-html 模块问题的帮助将不胜感激。

0 投票
2 回答
7788 浏览

python - Python追加到数组和for循环

我正在尝试插入一些链接,然后对它们进行循环(以输入它们)。

我的代码:

的回应print(i)

它用 {' '} 打印,因为它没有进入链接。我该怎么办。

0 投票
1 回答
320 浏览

python - Python请求数组中的html打印响应

我正在尝试检查链接是否包含http并打印 URL。

回复:

我试图删除set()响应并仅获取不带{'and的链接'}

0 投票
0 回答
1127 浏览

python - pyppeteer.errors.BrowserError:无法连接到浏览器端口

requests-html在 Python 3.6.5、Ubuntu 16.04(x64) 上使用包时遇到问题。更具体地说,最后一行

产生以下错误:

Traceback(最近一次调用最后一次):文件“”,第 1 行,在

File "/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py", line 572, in render self.session.browser # 自动创建事件循环和浏览器

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py”,第 680 行,在浏览器中 self._browser = self.loop.run_until_complete(pyppeteer.launch(headless=是的,args=['--no-sandbox']))

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/asyncio/base_events.py”,第 468 行,在 run_until_complete 返回 future.result()

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 243 行,在启动返回等待 Launcher(options, **kwargs).launch()

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 160 行,在启动时 self.browserWSEndpoint = self._get_ws_endpoint()

_get_ws_endpoint 中的文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 178 行引发 BrowserError(f'无法连接到浏览器端口:{url }')

pyppeteer.errors.BrowserError:无法连接到浏览器端口:http: //127.0.0.1 :43623/json/version

但是,相同的代码在另一个 Windows 10 平台上运行良好且没有错误,配置了相同的 Python 要求。

我检查了我的电脑上是否已经成功下载了Chrome,结果是yes!所以我认为这不是问题所在。

(candy_env) candy@botwriter01:~/.pyppeteer/local-chromium/543305/chrome-linux$ ls chrome chrome_sandbox libclearkeycdm.so locales nacl_helper_bootstrap natives_blob.bin resources.pak
xdg-mime chrome_100_percent.pak chrome-wrapper libEGL.so
MEIPreload nacl_helper_nonsfi product_logo_48.png swiftshader
xdg-settings chrome_200_percent.pak icudtl.dat libGLESv2.so
nacl_helper nacl_irt_x86_64.nexe 资源
v8_context_snapshot.bin

我已经在指南中搜索了requests-html答案,但一无所获。我希望命令r.html.render()正常工作,我现在该怎么办?

0 投票
2 回答
589 浏览

python - Python - requests_html 屏幕抓取

我正在尝试登录一个非常复杂(在我的初学者眼中)的网站并进行预订。在开始项目之前不知道一条 python 语句。在多次启动和停止后使用 requests_html/HTMLSession 成功登录。已克服安全/授权问题并到达目标页面。该页面上显示了服务器时间,直到时间到达上午 7:00,我才能按下正确的键。我无法访问该字段。我尝试了 .search 和 .find 命令,但没有。我希望有人能告诉我如何将时间下载到我的程序中,这样我就可以测试时间并等到它到达或几乎到达 7:00。(我之所以这么说几乎是因为预订是针对开球时间的,而且 7 点真的很紧张——这个应用程序的全部意义在于使过程自动化并且是最快的!)

所以我需要能够将时间加载到我的 python 中,并在时钟到达 7:00 时单击日期文件。

0 投票
1 回答
150 浏览

python - 从 python 中的网站获取渲染的 javascript 行

我为此使用python 3.6.6。

我正在尝试从 pycharm 网站(https://www.jetbrains.com/pycharm/download/#section=windows)获取 pycharm 的当前版本号。版本号显示得很明显,但我仍然无法得到它,因为我不知道如何正确处理 java 脚本。

我尝试使用 requests_html 从以下位置解析它:

在 java 脚本完成其工作后,这部分应该如下所示:

顺便说一下,这是我不工作的脚本:

我不在乎是否会留下任何部分,我会简单地用 RegEx 过滤掉它们。我仍然从中得到的唯一东西是: