问题标签 [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
312 浏览

python - 将 curl 命令映射到等于 python 请求函数

真的很感激一些帮助,以了解我所缺少的。我有一个有效的 curl 命令,我需要使用请求映射到一个相等的 python 函数。

我所有的尝试都以失败告终:
requests.exceptions.ConnectionError: ('Connection aborted.', error(32, 'Broken pipe'))

原来的 curl 命令是:
curl -X POST " https://xxxx/api/upload " -H "accept: application/json" -H "authorization: Basic BlaBla" -H "Content-Type: multipart/form-data " -F "file=@SomeFile.zip;type=application/zip"

我失败的python代码是:

fAuth 只是我用来验证和保留会话以进行后续呼叫的类。我可以使用 fAuth 实例来做没有问题,所以我怀疑问题与底层会话无关。

非常感谢任何想法或见解。

0 投票
1 回答
742 浏览

python - Multithreading with requests-html

After a couple of weeks of attempting to figure this out on my own i've given up. Please be aware that i'm using requests_html and not requests as the pages i'm attempting to scrape are JS rendered. The script runs fine without multithreading, but it's painfully slow. When I attempt to include multithreading, I get the following error(s) when I run this script:

Here's the script:

0 投票
2 回答
5316 浏览

python - Requests-HTML 抓取标签图片 url (Requests-HTML, python)

html 尝试从以下网页中提取cpu图像

这是我的代码

这打印

元素 'a' class=('item',) onclick='show_gallery(0, carousel_images);return false;'

但是,当我将打印语句更改为:

我收到以下错误:

AttributeError:“列表”对象没有属性“绝对链接”

知道为什么会发生这种情况以及我该如何解决?

如果您需要更多信息,请告诉我。

谢谢

0 投票
1 回答
594 浏览

python - 刮下文字

我正在尝试提取 cpu 的套接字类型,如下图所示。我已经确定套接字类型位于<h4>Socket 标题下,如下所示。

到目前为止,我已经能够抓取.spec.block并找到所有<h4>'s嵌套在里面的东西。但是我无法获取每个标题下的文字

这是我的代码

这打印

但是,当我将打印语句更改为:

我收到以下错误:

AttributeError:“列表”对象没有属性“文本”

更新:

此代码打印:

制造商 AMD 这是第一个标题和文本,但我需要第四个

知道我可以使用什么代码来达到预期的结果吗?

如果您需要更多信息,请告诉我。

0 投票
1 回答
2127 浏览

python - 抓取网页
  • (Python)

问题:

有一个网站https://au.pcpartpicker.com/products/cpu/overall-list/#page=1<li>下有一个列表,列表中的<ul>每个项目都包含一个<div>带有类标题的类中还有 2 个<div>元素第一个有一些文本示例3.4 GHz 6-Core (Pinnacle Ridge)我想删除所有不在括号中的文本以获得Pinnacle Ridge删除列表后,我想通过更改#page=进入下一页。

代码:

我不太确定只有片段,但这里是:

从 requests_html 导入 HTMLSession 会话 = HTMLSession()

预期结果:

我想遍历每个页面,直到没有人找到每个列表并获取不需要保存的名称,因为我有代码在创建它时保存它。

如果您需要更多信息,请告诉我

谢谢

0 投票
1 回答
886 浏览

python-3.x - Python - 无法将发布请求发送到登录表单

我正在尝试发送 POST 消息以登录到 Web 界面,进行身份验证,并使用 cookie 下载设备上的可用历史数据。

问题:我的 POST 请求似乎不起作用,因为代码一直无法通过身份验证并返回登录源页面内容并且没有 cookie。我认为我使用的表单数据不正确但不确定是什么问题?

设备登录web界面源代码

我看到了表单动作:

这是成功认证后的源代码 (手动登录)

您能否建议正确的方式来获得身份验证并发送 POST 请求并登录到网站?

谢谢 !!

0 投票
1 回答
60 浏览

python - 使用第一个呼叫响应作为参数无法成功进行第二个呼叫

我是 Python 的初学者,我正在尝试使用 python 访问以下数据。

1) https://www.nseindia.com/corporates/corporateHome.html,点击左侧窗格中“公司信息”下的“公司公告”。2) 输入公司代码(例如 KSCL)并选择公告期 3) 单击任何单个行主题以获取更多详细信息

前两个步骤转换为以下网址“ https://www.nseindia.com/corporates/corpInfo/equities/getAnnouncements.jsp?period=More%20than%203%20Months&symbol=kscl&industry=&subject= ”。这在我的 python 请求代码中运行良好。

但是我无法复制第三步,请求成功但我没有获取数据。以下是我正在使用的代码,我被卡住了,请帮忙。

当我从浏览器尝试这个时,我将所有请求标头与我使用 python 发送的内容进行了比较,它们匹配。我也尝试发送 cookie,但没有成功。我认为可能不需要 cookie,因为网站在禁用 cookie 后也可以在浏览器中运行。我在 Python 3.5 上运行它。

当我从浏览器尝试此流程时,第二个呼叫响应将具有指向另一个 pdf 的 href 链接。但我没有在我的 python 响应中得到那个 href 链接。

0 投票
1 回答
300 浏览

python-3.x - 将 RoboBrowser 与 Requests-HTML 相结合

我喜欢使用 RoboBrowser 轻松填写和提交在线表单,并且我想我知道如何访问 RoboBrowser 底层的 requests.Session() 实例,如果我需要使用它的话。

但我想使用 RoboBrowser 提交一个表单,然后将会话传递给 requests_html.Session() 以便我可以使用 JavaScript 呈现 HTML。我怎么做?有没有办法将 Requests 会话转换为 Requests-HTML 会话?

我查看了 Requests、Requests-HTML 和 RoboBrowser 的文档,以及所有关于 Requests-HTML 的 SO 问题。我也用谷歌搜索了答案。这些来源都没有帮助。

我知道为此目的使用 Selenium 可能更容易,但这是针对工作中的项目,我无法安装 Selenium。我相信我关于如何将 Requests 会话转换或传递到 Requests-HTML 会话的更广泛的问题对 Python 社区来说是一个有用的问题。

0 投票
1 回答
1334 浏览

python - 带有下拉列表选择器的 Python requests-html

我正在一个站点上执行抓取,该站点包含一个用于检索数据和一个下拉列表输入的 java 脚本。我正在使用 requests-html 处理 java 部分,但我很难在下拉列表中选择值。

这是我的代码:

输出是 bs4.element.tag:

如您所见,下拉列表中的选定值是 1 月 16 日,即使我指定了 15 日。主表中的期货数据也是16日的。

使用 pandas 提取表格的代码非常简单:

在提取 html 之前,如何从选项中选择日期?

(另外,附注,如果 requests-html 可以做与我使用 BeautifulSoup 相同的事情,那么我很想知道如何。)

0 投票
1 回答
276 浏览

python - 如何使用 Python (requests-html) 在网站上获取 .xls 文件的文件名

我正在尝试从芬兰药品价格机构抓取 excel 文件

我正在使用 requests-html 来查找指向 excel 文件的链接:

这适用于 excel 文件的内容,但所选元素没有关于文件名称的信息。文件名包含文件中价格适用时期的信息。例如链接http://www.hila.fi/c/document_library/get_file?folderId=792534&name=DLFE-4531.xls获取文件Viitehintaluettelo Q4_2009_paivitetty.xls

如何将此文件名作为字符串获取,以便从中提取时间信息Q4_2009