问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用“Requests-HTML”库获取交易价格时遇到问题
我在 python 中编写了一个脚本,以从 javascript 呈现的网页获取最后一笔交易的价格。如果我选择使用selenium
. 我的目标不是使用任何浏览器模拟器之类selenium
的东西,因为最新版本的Requests-HTML应该能够解析 javascript 加密内容。但是,我无法成功。当我运行脚本时,我收到以下错误。对此的任何帮助将不胜感激。
网站地址:webpage_link
我试过的脚本:
这是完整的追溯:
我要的价格在页面顶部可以看到,就像这样177.59 EUR Last trade price
。我希望得到177.59
或无论当前价格是多少。
python - requests-HTML 编码错误
大家好,
当我运行此代码时:
我收到此错误消息:
我认为这是因为某些链接中的非 utf-8 字符。
由于它发生在方法内部,有没有办法处理这个问题?
我是一个初学者,如果我错过了一些明显的东西,我很抱歉。
python - 如何使用 python 请求检查 HTML 中的更新
我正在尝试监视页面是否有任何更新。但是,我需要保持相同的会话和 cookie,所以我不能只发送一个全新的请求。
如何在当前请求中检查 HTML 中的更新?页面不仅会更新,还会重定向,但 URL 保持不变。
这是我当前的代码:
编辑:我将使用 while 循环每 5 秒运行一次此函数,以检查状态是否为 =“存在”。
EDIT2:我尝试通过 requests_html 实现它,但我没有得到应有的 cookie:
python - 使用 requests-html 解析元素的尾部
我想用 requests-html 0.9.0 解析这样的 HTML 文档:
我需要区分标签内的文本(由它包围)和标签的尾部(从元素到下一个标签的文本)。这是我最初预期的行为:
但是tail
没有为Element
s 定义。由于 requests-html 提供对内部lxml
对象的访问,我们可以尝试从以下位置获取它lxml.etree.Element.tail
:
lxml 表示中没有尾巴!带有内部文本的标签是可以的,但尾巴似乎被剥离了。如何提取'and some rubbish'
?
编辑:我发现full_text
它只提供内部文本(“完整”就这么多)。full_text
这可以实现从中减去的肮脏技巧text
,尽管我不肯定如果有任何链接它会起作用。
python - 带有 Tor 的 Python requests-html
要求是在一定数量的呼叫后匿名报废或更改 IP。我使用https://github.com/kennethreitz/requests-html模块解析 HTML,但出现以下错误,
代码
但它与 requests 模块完美配合,
任何解决 requests-html 模块问题的帮助将不胜感激。
python - Python追加到数组和for循环
我正在尝试插入一些链接,然后对它们进行循环(以输入它们)。
我的代码:
的回应print(i)
:
它用 {' '} 打印,因为它没有进入链接。我该怎么办。
python - Python请求数组中的html打印响应
我正在尝试检查链接是否包含http
并打印 URL。
回复:
我试图删除set()
响应并仅获取不带{'
and的链接'}
。
python - pyppeteer.errors.BrowserError:无法连接到浏览器端口
requests-html
在 Python 3.6.5、Ubuntu 16.04(x64) 上使用包时遇到问题。更具体地说,最后一行
产生以下错误:
Traceback(最近一次调用最后一次):文件“”,第 1 行,在
File "/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py", line 572, in render self.session.browser # 自动创建事件循环和浏览器
文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py”,第 680 行,在浏览器中 self._browser = self.loop.run_until_complete(pyppeteer.launch(headless=是的,args=['--no-sandbox']))
文件“/home/candy/.conda/envs/candy_env/lib/python3.6/asyncio/base_events.py”,第 468 行,在 run_until_complete 返回 future.result()
文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 243 行,在启动返回等待 Launcher(options, **kwargs).launch()
文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 160 行,在启动时 self.browserWSEndpoint = self._get_ws_endpoint()
_get_ws_endpoint 中的文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”,第 178 行引发 BrowserError(f'无法连接到浏览器端口:{url }')
pyppeteer.errors.BrowserError:无法连接到浏览器端口:http: //127.0.0.1 :43623/json/version
但是,相同的代码在另一个 Windows 10 平台上运行良好且没有错误,配置了相同的 Python 要求。
我检查了我的电脑上是否已经成功下载了Chrome,结果是yes!所以我认为这不是问题所在。
(candy_env) candy@botwriter01:~/.pyppeteer/local-chromium/543305/chrome-linux$ ls chrome chrome_sandbox libclearkeycdm.so locales nacl_helper_bootstrap natives_blob.bin resources.pak
xdg-mime chrome_100_percent.pak chrome-wrapper libEGL.so
MEIPreload nacl_helper_nonsfi product_logo_48.png swiftshader
xdg-settings chrome_200_percent.pak icudtl.dat libGLESv2.so
nacl_helper nacl_irt_x86_64.nexe 资源
v8_context_snapshot.bin
我已经在指南中搜索了requests-html
答案,但一无所获。我希望命令r.html.render()
正常工作,我现在该怎么办?
python - Python - requests_html 屏幕抓取
我正在尝试登录一个非常复杂(在我的初学者眼中)的网站并进行预订。在开始项目之前不知道一条 python 语句。在多次启动和停止后使用 requests_html/HTMLSession 成功登录。已克服安全/授权问题并到达目标页面。该页面上显示了服务器时间,直到时间到达上午 7:00,我才能按下正确的键。我无法访问该字段。我尝试了 .search 和 .find 命令,但没有。我希望有人能告诉我如何将时间下载到我的程序中,这样我就可以测试时间并等到它到达或几乎到达 7:00。(我之所以这么说几乎是因为预订是针对开球时间的,而且 7 点真的很紧张——这个应用程序的全部意义在于使过程自动化并且是最快的!)
所以我需要能够将时间加载到我的 python 中,并在时钟到达 7:00 时单击日期文件。
python - 从 python 中的网站获取渲染的 javascript 行
我为此使用python 3.6.6。
我正在尝试从 pycharm 网站(https://www.jetbrains.com/pycharm/download/#section=windows)获取 pycharm 的当前版本号。版本号显示得很明显,但我仍然无法得到它,因为我不知道如何正确处理 java 脚本。
我尝试使用 requests_html 从以下位置解析它:
在 java 脚本完成其工作后,这部分应该如下所示:
顺便说一下,这是我不工作的脚本:
我不在乎是否会留下任何部分,我会简单地用 RegEx 过滤掉它们。我仍然从中得到的唯一东西是: