问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将 curl 命令映射到等于 python 请求函数
真的很感激一些帮助,以了解我所缺少的。我有一个有效的 curl 命令,我需要使用请求映射到一个相等的 python 函数。
我所有的尝试都以失败告终:
requests.exceptions.ConnectionError: ('Connection aborted.', error(32, 'Broken pipe'))
原来的 curl 命令是:
curl -X POST " https://xxxx/api/upload " -H "accept: application/json" -H "authorization: Basic BlaBla" -H "Content-Type: multipart/form-data " -F "file=@SomeFile.zip;type=application/zip"
我失败的python代码是:
fAuth 只是我用来验证和保留会话以进行后续呼叫的类。我可以使用 fAuth 实例来做没有问题,所以我怀疑问题与底层会话无关。
非常感谢任何想法或见解。
python - Multithreading with requests-html
After a couple of weeks of attempting to figure this out on my own i've given up. Please be aware that i'm using requests_html and not requests as the pages i'm attempting to scrape are JS rendered. The script runs fine without multithreading, but it's painfully slow. When I attempt to include multithreading, I get the following error(s) when I run this script:
Here's the script:
python - Requests-HTML 抓取标签图片 url (Requests-HTML, python)
python - 抓取网页 - (Python)
问题:
有一个网站https://au.pcpartpicker.com/products/cpu/overall-list/#page=1<li>
下有一个列表,列表中的<ul>
每个项目都包含一个<div>
带有类标题的类中还有 2 个<div>
元素第一个有一些文本示例3.4 GHz 6-Core (Pinnacle Ridge)我想删除所有不在括号中的文本以获得Pinnacle Ridge。删除列表后,我想通过更改#page=进入下一页。
代码:
我不太确定只有片段,但这里是:
从 requests_html 导入 HTMLSession 会话 = HTMLSession()
预期结果:
我想遍历每个页面,直到没有人找到每个列表并获取不需要保存的名称,因为我有代码在创建它时保存它。
如果您需要更多信息,请告诉我
谢谢
python-3.x - Python - 无法将发布请求发送到登录表单
我正在尝试发送 POST 消息以登录到 Web 界面,进行身份验证,并使用 cookie 下载设备上的可用历史数据。
问题:我的 POST 请求似乎不起作用,因为代码一直无法通过身份验证并返回登录源页面内容并且没有 cookie。我认为我使用的表单数据不正确但不确定是什么问题?
设备登录web界面源代码
我看到了表单动作:
这是成功认证后的源代码 (手动登录)
您能否建议正确的方式来获得身份验证并发送 POST 请求并登录到网站?
谢谢 !!
python - 使用第一个呼叫响应作为参数无法成功进行第二个呼叫
我是 Python 的初学者,我正在尝试使用 python 访问以下数据。
1) https://www.nseindia.com/corporates/corporateHome.html,点击左侧窗格中“公司信息”下的“公司公告”。2) 输入公司代码(例如 KSCL)并选择公告期 3) 单击任何单个行主题以获取更多详细信息
前两个步骤转换为以下网址“ https://www.nseindia.com/corporates/corpInfo/equities/getAnnouncements.jsp?period=More%20than%203%20Months&symbol=kscl&industry=&subject= ”。这在我的 python 请求代码中运行良好。
但是我无法复制第三步,请求成功但我没有获取数据。以下是我正在使用的代码,我被卡住了,请帮忙。
当我从浏览器尝试这个时,我将所有请求标头与我使用 python 发送的内容进行了比较,它们匹配。我也尝试发送 cookie,但没有成功。我认为可能不需要 cookie,因为网站在禁用 cookie 后也可以在浏览器中运行。我在 Python 3.5 上运行它。
当我从浏览器尝试此流程时,第二个呼叫响应将具有指向另一个 pdf 的 href 链接。但我没有在我的 python 响应中得到那个 href 链接。
python-3.x - 将 RoboBrowser 与 Requests-HTML 相结合
我喜欢使用 RoboBrowser 轻松填写和提交在线表单,并且我想我知道如何访问 RoboBrowser 底层的 requests.Session() 实例,如果我需要使用它的话。
但我想使用 RoboBrowser 提交一个表单,然后将会话传递给 requests_html.Session() 以便我可以使用 JavaScript 呈现 HTML。我怎么做?有没有办法将 Requests 会话转换为 Requests-HTML 会话?
我查看了 Requests、Requests-HTML 和 RoboBrowser 的文档,以及所有关于 Requests-HTML 的 SO 问题。我也用谷歌搜索了答案。这些来源都没有帮助。
我知道为此目的使用 Selenium 可能更容易,但这是针对工作中的项目,我无法安装 Selenium。我相信我关于如何将 Requests 会话转换或传递到 Requests-HTML 会话的更广泛的问题对 Python 社区来说是一个有用的问题。
python - 带有下拉列表选择器的 Python requests-html
我正在一个站点上执行抓取,该站点包含一个用于检索数据和一个下拉列表输入的 java 脚本。我正在使用 requests-html 处理 java 部分,但我很难在下拉列表中选择值。
这是我的代码:
输出是 bs4.element.tag:
如您所见,下拉列表中的选定值是 1 月 16 日,即使我指定了 15 日。主表中的期货数据也是16日的。
使用 pandas 提取表格的代码非常简单:
在提取 html 之前,如何从选项中选择日期?
(另外,附注,如果 requests-html 可以做与我使用 BeautifulSoup 相同的事情,那么我很想知道如何。)
python - 如何使用 Python (requests-html) 在网站上获取 .xls 文件的文件名
我正在尝试从芬兰药品价格机构抓取 excel 文件
我正在使用 requests-html 来查找指向 excel 文件的链接:
这适用于 excel 文件的内容,但所选元素没有关于文件名称的信息。文件名包含文件中价格适用时期的信息。例如链接http://www.hila.fi/c/document_library/get_file?folderId=792534&name=DLFE-4531.xls
获取文件Viitehintaluettelo Q4_2009_paivitetty.xls
。
如何将此文件名作为字符串获取,以便从中提取时间信息Q4_2009
?