“python-requests-html”的相关标签问题

0 投票

3 回答

9138 浏览

python - 使用“Requests-HTML”库获取交易价格时遇到问题

我在 python 中编写了一个脚本，以从 javascript 呈现的网页获取最后一笔交易的价格。如果我选择使用selenium. 我的目标不是使用任何浏览器模拟器之类selenium的东西，因为最新版本的Requests-HTML应该能够解析 javascript 加密内容。但是，我无法成功。当我运行脚本时，我收到以下错误。对此的任何帮助将不胜感激。

网站地址：webpage_link

我试过的脚本：

这是完整的追溯：

我要的价格在页面顶部可以看到，就像这样177.59 EUR Last trade price。我希望得到177.59或无论当前价格是多少。

2018-02-28T07:12:02.563

0 投票

2 回答

638 浏览

python - requests-HTML 编码错误

大家好，

当我运行此代码时：

我收到此错误消息：

我认为这是因为某些链接中的非 utf-8 字符。

由于它发生在方法内部，有没有办法处理这个问题？

我是一个初学者，如果我错过了一些明显的东西，我很抱歉。

python python-3.x web-scraping character-encoding python-requests-html

2018-03-14T01:26:31.470

0 投票

1 回答

2134 浏览

python - 如何使用 python 请求检查 HTML 中的更新

我正在尝试监视页面是否有任何更新。但是，我需要保持相同的会话和 cookie，所以我不能只发送一个全新的请求。

如何在当前请求中检查 HTML 中的更新？页面不仅会更新，还会重定向，但 URL 保持不变。

这是我当前的代码：

编辑：我将使用 while 循环每 5 秒运行一次此函数，以检查状态是否为 =“存在”。

EDIT2：我尝试通过 requests_html 实现它，但我没有得到应有的 cookie：

python html http python-requests python-requests-html

2018-04-17T13:29:39.687

0 投票

2 回答

1558 浏览

python - 使用 requests-html 解析元素的尾部

我想用 requests-html 0.9.0 解析这样的 HTML 文档：

我需要区分标签内的文本（由它包围）和标签的尾部（从元素到下一个标签的文本）。这是我最初预期的行为：

但是tail没有为Elements 定义。由于 requests-html 提供对内部lxml对象的访问，我们可以尝试从以下位置获取它lxml.etree.Element.tail：

lxml 表示中没有尾巴！带有内部文本的标签是可以的，但尾巴似乎被剥离了。如何提取'and some rubbish'？

编辑：我发现full_text它只提供内部文本（“完整”就这么多）。full_text这可以实现从中减去的肮脏技巧text，尽管我不肯定如果有任何链接它会起作用。

python python-requests lxml python-requests-html

2018-04-20T14:52:25.613

0 投票

1 回答

829 浏览

python - 带有 Tor 的 Python requests-html

要求是在一定数量的呼叫后匿名报废或更改 IP。我使用https://github.com/kennethreitz/requests-html模块解析 HTML，但出现以下错误，

代码

但它与 requests 模块完美配合，

任何解决 requests-html 模块问题的帮助将不胜感激。

python python-3.x python-requests python-requests-html

2018-04-20T18:57:36.830

0 投票

2 回答

7788 浏览

python - Python追加到数组和for循环

我正在尝试插入一些链接，然后对它们进行循环（以输入它们）。

我的代码：

的回应print(i)：

它用 {' '} 打印，因为它没有进入链接。我该怎么办。

python python-3.x python-requests python-requests-html

2018-05-03T12:10:58.557

0 投票

1 回答

320 浏览

python - Python请求数组中的html打印响应

我正在尝试检查链接是否包含http并打印 URL。

回复：

我试图删除set()响应并仅获取不带{'and的链接'}。

python python-3.x python-requests python-requests-html

2018-05-03T23:54:23.197

0 投票

0 回答

1127 浏览

python - pyppeteer.errors.BrowserError：无法连接到浏览器端口

requests-html在 Python 3.6.5、Ubuntu 16.04(x64) 上使用包时遇到问题。更具体地说，最后一行

产生以下错误：

Traceback（最近一次调用最后一次）：文件“”，第 1 行，在

File "/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py", line 572, in render self.session.browser # 自动创建事件循环和浏览器

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/requests_html.py”，第 680 行，在浏览器中 self._browser = self.loop.run_until_complete(pyppeteer.launch(headless=是的，args=['--no-sandbox']))

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/asyncio/base_events.py”，第 468 行，在 run_until_complete 返回 future.result()

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”，第 243 行，在启动返回等待 Launcher(options, **kwargs).launch()

文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”，第 160 行，在启动时 self.browserWSEndpoint = self._get_ws_endpoint()

_get_ws_endpoint 中的文件“/home/candy/.conda/envs/candy_env/lib/python3.6/site-packages/pyppeteer/launcher.py”，第 178 行引发 BrowserError(f'无法连接到浏览器端口：{url }')

pyppeteer.errors.BrowserError：无法连接到浏览器端口：http: //127.0.0.1 :43623/json/version

但是，相同的代码在另一个 Windows 10 平台上运行良好且没有错误，配置了相同的 Python 要求。

我检查了我的电脑上是否已经成功下载了Chrome，结果是yes！所以我认为这不是问题所在。

(candy_env) candy@botwriter01:~/.pyppeteer/local-chromium/543305/chrome-linux$ ls chrome chrome_sandbox libclearkeycdm.so locales nacl_helper_bootstrap natives_blob.bin resources.pak
xdg-mime chrome_100_percent.pak chrome-wrapper libEGL.so
MEIPreload nacl_helper_nonsfi product_logo_48.png swiftshader
xdg-settings chrome_200_percent.pak icudtl.dat libGLESv2.so
nacl_helper nacl_irt_x86_64.nexe 资源
v8_context_snapshot.bin

我已经在指南中搜索了requests-html答案，但一无所获。我希望命令r.html.render()正常工作，我现在该怎么办？

python python-3.x python-requests pyppeteer python-requests-html

2018-06-12T03:17:00.757

0 投票

2 回答

589 浏览

python - Python - requests_html 屏幕抓取

我正在尝试登录一个非常复杂（在我的初学者眼中）的网站并进行预订。在开始项目之前不知道一条 python 语句。在多次启动和停止后使用 requests_html/HTMLSession 成功登录。已克服安全/授权问题并到达目标页面。该页面上显示了服务器时间，直到时间到达上午 7:00，我才能按下正确的键。我无法访问该字段。我尝试了 .search 和 .find 命令，但没有。我希望有人能告诉我如何将时间下载到我的程序中，这样我就可以测试时间并等到它到达或几乎到达 7:00。（我之所以这么说几乎是因为预订是针对开球时间的，而且 7 点真的很紧张——这个应用程序的全部意义在于使过程自动化并且是最快的！）

所以我需要能够将时间加载到我的 python 中，并在时钟到达 7:00 时单击日期文件。

python web-scraping python-requests-html

2018-07-17T14:45:04.157

0 投票

1 回答

150 浏览

python - 从 python 中的网站获取渲染的 javascript 行

我为此使用python 3.6.6。

我正在尝试从 pycharm 网站（https://www.jetbrains.com/pycharm/download/#section=windows）获取 pycharm 的当前版本号。版本号显示得很明显，但我仍然无法得到它，因为我不知道如何正确处理 java 脚本。

我尝试使用 requests_html 从以下位置解析它：

在 java 脚本完成其工作后，这部分应该如下所示：

顺便说一下，这是我不工作的脚本：

我不在乎是否会留下任何部分，我会简单地用 RegEx 过滤掉它们。我仍然从中得到的唯一东西是：

python web-scraping python-3.6 python-requests-html

2018-07-18T13:49:26.553

问题标签 [python-requests-html]

Reference