问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1426 浏览

python-3.x - requests-html 和无限滚动

我正在检查一个 python 库:requests-html。看起来很有趣,容易和清晰的刮。但是,我不确定如何呈现无限滚动的页面。

从他们的文档中,我了解到我应该呈现一个具有特殊属性(向下滚动)的页面。我正在尝试,但我不知道具体如何。我知道如何使用 selenium 来处理无限滚动,但我想知道 requests-html 是否有可能。

它从 13 中找到 10 个元素。10 是可见的,无需滚动(并且由于无限滚动而加载新内容)。

0 投票
1 回答
1081 浏览

session - requests-html HTTPSConnectionPoolRead 超时

尝试使用向此处requests-html发送请求。

这是我的代码:

这是我收到的错误:

我以为设置用户代理可以解决问题,但我仍然收到错误消息?增加超时也没有解决问题

0 投票
0 回答
369 浏览

python - while True 循环脚本停止运行,没有终止或抛出错误

从循环运行此代码,它不会终止或似乎结束?没有捕获/抛出错误。一旦它位于输出控制台的第 189 行,它总是会执行此操作。

是不是某种内存错误导致了这种情况?我试图增加到time.sleep(3)类似的东西,time.sleep(30)但这没有任何区别,在控制台的第 189 行之后仍然停止运行?

0 投票
4 回答
5603 浏览

python - 使用python从带有javascript的网页中抓取数据

我正在尝试从网页上刮下标题。最初,我尝试使用 BeautifulSoup,但发现页面本身不会在没有 Javascript 的情况下加载。所以我使用了一些我在 Google 上找到的使用 request-html 库的代码:

但是总是有以下错误:

有谁知道这意味着什么?我对此很陌生,所以如果我不正确地使用任何术语,我深表歉意。

0 投票
0 回答
526 浏览

python - requests.get() 没有输出

我正在使用请求库来输出公司汇合页面的内容。

我已经使用非公司测试合流页面运行程序,就像这样,我能够获得正确的输出。我已经尝试在有和没有凭据的情况下运行我的公司合流页面。我检查了 URL 和页面 ID,并且能够在我的浏览器上查看 JSON 数据。我正在开发一个 linux 虚拟机。

当我运行带有身份验证的代码时,我没有得到任何输出或错误。我跑了 status_code,我得到了200. 当我在没有身份验证的情况下运行我的代码时,我得到了status_code 404.

如果我忽略了任何内容,请告诉我,这可能完全是因为部分融合是公司页面的错误。

0 投票
1 回答
206 浏览

html - 有没有办法通过请求 HTML 找出 DOM 层次结构中的元素之上的元素

我正在使用requests-html进行网络抓取的python项目,我遇到了一个问题,我试图抓取的网站上的一段HTML在两个地方的结构相同(一个用于移动设备,一个用于桌面)。当我使用 .find() 方法时,它会同时抓取它们。区分它们的唯一方法是通过它们上方的 div 的 id。有谁知道是否有一种方法可以搜索其他元素之上的元素,就像 .find() 的反面一样。

0 投票
1 回答
3269 浏览

python - requests-html 找不到页面元素

所以我试图导航到这个 url:https://www.instacart.com/store/wegmans/search_v3/horizon%201%25 并使用 class 从 div 中抓取数据item-name item-row。但是有两个主要问题,第一个是 instacart.com 需要登录才能访问该 URL,第二个是大部分页面是使用 javascript 生成的。

我相信我已经解决了第一个问题,因为我session.post(...)得到了 200 响应代码。我也很确定这r.html.render()应该通过在我抓取它之前渲染 javascript 生成的 html 来解决第二个问题。不幸的是,我的代码中的最后一行只返回一个空列表,尽管 selenium 获取这个元素没有问题。有谁知道为什么这不起作用?

0 投票
0 回答
77 浏览

python - 是否可以通过传递 xml 参数来记录 python 请求?

我通过传递 xml 参数对 og python 请求进行了研究,但在这个特定页面上没有取得多大成功。我无法登录。如果有人已经有类似的经历,欢迎任何方向的帮助。我的代码如下:

图片:

在此处输入图像描述

0 投票
0 回答
98 浏览

python - 如何减少过期请求?

我为每个站点的主题分配了 30 个请求。对于某些人来说,15-20 个请求都是徒劳的。我怎样才能减少这种情况?

我正在使用 Python BeautifulSoup 库从站点中提取数据。

当我查看网站的所有问题时,平均/数量是 25-26。但并非所有线程都是相同的,我将 30 个请求分配为固定的。

例如:30 次请求后的www.abc.com/5 。我无缘无故地抛出 25 个请求。

我应该写类似“将相同的数据拉出循环”之类的东西吗?我认为这将提高程序的性能。但我不知道怎么做。

0 投票
3 回答
5041 浏览

python - requests_html 使用 pyppeteer 安装 chromium 时出现 python3 SSL 证书问题

html.render()requests_html图书馆跑。它正在尝试安装 chromium,但出现错误

我已经尝试过pip install --upgrade certifi使用和不使用sudo 并得到:Requirement already up-to-date: certifi in /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages (2019.6.16)

我也尝试运行/Applications/Python\ 3.6/Install\ Certificates command并得到:

这是我得到的错误:

请问有什么建议吗?