问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - requests-html 和无限滚动
我正在检查一个 python 库:requests-html。看起来很有趣,容易和清晰的刮。但是,我不确定如何呈现无限滚动的页面。
从他们的文档中,我了解到我应该呈现一个具有特殊属性(向下滚动)的页面。我正在尝试,但我不知道具体如何。我知道如何使用 selenium 来处理无限滚动,但我想知道 requests-html 是否有可能。
它从 13 中找到 10 个元素。10 是可见的,无需滚动(并且由于无限滚动而加载新内容)。
python - while True 循环脚本停止运行,没有终止或抛出错误
从循环运行此代码,它不会终止或似乎结束?没有捕获/抛出错误。一旦它位于输出控制台的第 189 行,它总是会执行此操作。
是不是某种内存错误导致了这种情况?我试图增加到time.sleep(3)
类似的东西,time.sleep(30)
但这没有任何区别,在控制台的第 189 行之后仍然停止运行?
python - 使用python从带有javascript的网页中抓取数据
我正在尝试从网页上刮下标题。最初,我尝试使用 BeautifulSoup,但发现页面本身不会在没有 Javascript 的情况下加载。所以我使用了一些我在 Google 上找到的使用 request-html 库的代码:
但是总是有以下错误:
有谁知道这意味着什么?我对此很陌生,所以如果我不正确地使用任何术语,我深表歉意。
python - requests.get() 没有输出
我正在使用请求库来输出公司汇合页面的内容。
我已经使用非公司测试合流页面运行程序,就像这样,我能够获得正确的输出。我已经尝试在有和没有凭据的情况下运行我的公司合流页面。我检查了 URL 和页面 ID,并且能够在我的浏览器上查看 JSON 数据。我正在开发一个 linux 虚拟机。
当我运行带有身份验证的代码时,我没有得到任何输出或错误。我跑了 status_code,我得到了200
. 当我在没有身份验证的情况下运行我的代码时,我得到了status_code
404
.
如果我忽略了任何内容,请告诉我,这可能完全是因为部分融合是公司页面的错误。
html - 有没有办法通过请求 HTML 找出 DOM 层次结构中的元素之上的元素
我正在使用requests-html进行网络抓取的python项目,我遇到了一个问题,我试图抓取的网站上的一段HTML在两个地方的结构相同(一个用于移动设备,一个用于桌面)。当我使用 .find() 方法时,它会同时抓取它们。区分它们的唯一方法是通过它们上方的 div 的 id。有谁知道是否有一种方法可以搜索其他元素之上的元素,就像 .find() 的反面一样。
python - requests-html 找不到页面元素
所以我试图导航到这个 url:https://www.instacart.com/store/wegmans/search_v3/horizon%201%25
并使用 class 从 div 中抓取数据item-name item-row
。但是有两个主要问题,第一个是 instacart.com 需要登录才能访问该 URL,第二个是大部分页面是使用 javascript 生成的。
我相信我已经解决了第一个问题,因为我session.post(...)
得到了 200 响应代码。我也很确定这r.html.render()
应该通过在我抓取它之前渲染 javascript 生成的 html 来解决第二个问题。不幸的是,我的代码中的最后一行只返回一个空列表,尽管 selenium 获取这个元素没有问题。有谁知道为什么这不起作用?
python - 是否可以通过传递 xml 参数来记录 python 请求?
我通过传递 xml 参数对 og python 请求进行了研究,但在这个特定页面上没有取得多大成功。我无法登录。如果有人已经有类似的经历,欢迎任何方向的帮助。我的代码如下:
图片:
python - 如何减少过期请求?
我为每个站点的主题分配了 30 个请求。对于某些人来说,15-20 个请求都是徒劳的。我怎样才能减少这种情况?
我正在使用 Python BeautifulSoup 库从站点中提取数据。
当我查看网站的所有问题时,平均/数量是 25-26。但并非所有线程都是相同的,我将 30 个请求分配为固定的。
例如:30 次请求后的www.abc.com/5 。我无缘无故地抛出 25 个请求。
我应该写类似“将相同的数据拉出循环”之类的东西吗?我认为这将提高程序的性能。但我不知道怎么做。
python - requests_html 使用 pyppeteer 安装 chromium 时出现 python3 SSL 证书问题
我html.render()
从requests_html
图书馆跑。它正在尝试安装 chromium,但出现错误
我已经尝试过pip install --upgrade certifi
使用和不使用sudo
并得到:Requirement already up-to-date: certifi in /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages (2019.6.16)
我也尝试运行/Applications/Python\ 3.6/Install\ Certificates command
并得到:
这是我得到的错误:
请问有什么建议吗?