问题标签 [python-requests-html]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

398 问题

0 投票

2 回答

1426 浏览

python-3.x - requests-html 和无限滚动

我正在检查一个 python 库：requests-html。看起来很有趣，容易和清晰的刮。但是，我不确定如何呈现无限滚动的页面。

从他们的文档中，我了解到我应该呈现一个具有特殊属性（向下滚动）的页面。我正在尝试，但我不知道具体如何。我知道如何使用 selenium 来处理无限滚动，但我想知道 requests-html 是否有可能。

它从 13 中找到 10 个元素。10 是可见的，无需滚动（并且由于无限滚动而加载新内容）。

python-3.x python-requests-html

2019-06-13T17:48:07.470

0 投票

1 回答

1081 浏览

session - requests-html HTTPSConnectionPoolRead 超时

尝试使用向此处requests-html发送请求。

这是我的代码：

这是我收到的错误：

我以为设置用户代理可以解决问题，但我仍然收到错误消息？增加超时也没有解决问题

2019-06-20T17:31:22.183

0 投票

0 回答

369 浏览

python - while True 循环脚本停止运行，没有终止或抛出错误

从循环运行此代码，它不会终止或似乎结束？没有捕获/抛出错误。一旦它位于输出控制台的第 189 行，它总是会执行此操作。

是不是某种内存错误导致了这种情况？我试图增加到time.sleep(3)类似的东西，time.sleep(30)但这没有任何区别，在控制台的第 189 行之后仍然停止运行？

python loops while-loop python-requests python-requests-html

2019-06-21T21:51:03.297

0 投票

4 回答

5603 浏览

python - 使用python从带有javascript的网页中抓取数据

我正在尝试从网页上刮下标题。最初，我尝试使用 BeautifulSoup，但发现页面本身不会在没有 Javascript 的情况下加载。所以我使用了一些我在 Google 上找到的使用 request-html 库的代码：

但是总是有以下错误：

有谁知道这意味着什么？我对此很陌生，所以如果我不正确地使用任何术语，我深表歉意。

python python-3.x web-scraping beautifulsoup python-requests-html

2019-06-24T23:24:47.657

0 投票

0 回答

526 浏览

python - requests.get() 没有输出

我正在使用请求库来输出公司汇合页面的内容。

我已经使用非公司测试合流页面运行程序，就像这样，我能够获得正确的输出。我已经尝试在有和没有凭据的情况下运行我的公司合流页面。我检查了 URL 和页面 ID，并且能够在我的浏览器上查看 JSON 数据。我正在开发一个 linux 虚拟机。

当我运行带有身份验证的代码时，我没有得到任何输出或错误。我跑了 status_code，我得到了200. 当我在没有身份验证的情况下运行我的代码时，我得到了status_code 404.

如果我忽略了任何内容，请告诉我，这可能完全是因为部分融合是公司页面的错误。

python python-3.x python-requests python-requests-html

2019-07-02T21:59:57.220

0 投票

1 回答

206 浏览

html - 有没有办法通过请求 HTML 找出 DOM 层次结构中的元素之上的元素

我正在使用requests-html进行网络抓取的python项目，我遇到了一个问题，我试图抓取的网站上的一段HTML在两个地方的结构相同（一个用于移动设备，一个用于桌面）。当我使用 .find() 方法时，它会同时抓取它们。区分它们的唯一方法是通过它们上方的 div 的 id。有谁知道是否有一种方法可以搜索其他元素之上的元素，就像 .find() 的反面一样。

html css python-3.x python-requests-html

2019-07-03T22:01:50.283

0 投票

1 回答

3269 浏览

python - requests-html 找不到页面元素

所以我试图导航到这个 url:https://www.instacart.com/store/wegmans/search_v3/horizon%201%25 并使用 class 从 div 中抓取数据item-name item-row。但是有两个主要问题，第一个是 instacart.com 需要登录才能访问该 URL，第二个是大部分页面是使用 javascript 生成的。

我相信我已经解决了第一个问题，因为我session.post(...)得到了 200 响应代码。我也很确定这r.html.render()应该通过在我抓取它之前渲染 javascript 生成的 html 来解决第二个问题。不幸的是，我的代码中的最后一行只返回一个空列表，尽管 selenium 获取这个元素没有问题。有谁知道为什么这不起作用？

python cookies web-scraping python-requests-html

2019-07-05T21:24:42.827

0 投票

0 回答

77 浏览

python - 是否可以通过传递 xml 参数来记录 python 请求？

我通过传递 xml 参数对 og python 请求进行了研究，但在这个特定页面上没有取得多大成功。我无法登录。如果有人已经有类似的经历，欢迎任何方向的帮助。我的代码如下：

图片：

在此处输入图像描述

python python-requests-html

2019-07-08T19:20:20.827

0 投票

0 回答

98 浏览

python - 如何减少过期请求？

我为每个站点的主题分配了 30 个请求。对于某些人来说，15-20 个请求都是徒劳的。我怎样才能减少这种情况？

我正在使用 Python BeautifulSoup 库从站点中提取数据。

当我查看网站的所有问题时，平均/数量是 25-26。但并非所有线程都是相同的，我将 30 个请求分配为固定的。

例如：30 次请求后的www.abc.com/5 。我无缘无故地抛出 25 个请求。

我应该写类似“将相同的数据拉出循环”之类的东西吗？我认为这将提高程序的性能。但我不知道怎么做。

python python-3.x beautifulsoup python-requests python-requests-html

2019-07-10T11:02:29.150

0 投票

3 回答

5041 浏览

python - requests_html 使用 pyppeteer 安装 chromium 时出现 python3 SSL 证书问题

我html.render()从requests_html图书馆跑。它正在尝试安装 chromium，但出现错误

我已经尝试过pip install --upgrade certifi使用和不使用sudo 并得到：Requirement already up-to-date: certifi in /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages (2019.6.16)

我也尝试运行/Applications/Python\ 3.6/Install\ Certificates command并得到：

这是我得到的错误：

请问有什么建议吗？

python macos python-requests-html

2019-07-29T08:42:53.207

1 2 3 4 5 6 7 8 9 10

问题标签 [python-requests-html]

Reference