0 投票

1 回答

312 浏览

python - 将 curl 命令映射到等于 python 请求函数

真的很感激一些帮助，以了解我所缺少的。我有一个有效的 curl 命令，我需要使用请求映射到一个相等的 python 函数。

我所有的尝试都以失败告终：
requests.exceptions.ConnectionError: ('Connection aborted.', error(32, 'Broken pipe'))

原来的 curl 命令是：
curl -X POST " https://xxxx/api/upload " -H "accept: application/json" -H "authorization: Basic BlaBla" -H "Content-Type: multipart/form-data " -F "file=@SomeFile.zip;type=application/zip"

我失败的python代码是：

fAuth 只是我用来验证和保留会话以进行后续呼叫的类。我可以使用 fAuth 实例来做没有问题，所以我怀疑问题与底层会话无关。

非常感谢任何想法或见解。

2018-12-03T01:05:20.027

0 投票

1 回答

742 浏览

python - Multithreading with requests-html

After a couple of weeks of attempting to figure this out on my own i've given up. Please be aware that i'm using requests_html and not requests as the pages i'm attempting to scrape are JS rendered. The script runs fine without multithreading, but it's painfully slow. When I attempt to include multithreading, I get the following error(s) when I run this script:

Here's the script:

python multithreading web-scraping python-requests-html

2018-12-09T21:28:45.157

0 投票

2 回答

5316 浏览

python - Requests-HTML 抓取 标签图片 url (Requests-HTML, python)

html 尝试从以下网页中提取cpu图像

这是我的代码

这打印

元素 'a' class=('item',) onclick='show_gallery(0, carousel_images);return false;'

但是，当我将打印语句更改为：

我收到以下错误：

AttributeError：“列表”对象没有属性“绝对链接”

知道为什么会发生这种情况以及我该如何解决？

如果您需要更多信息，请告诉我。

谢谢

python html python-3.x python-requests-html

2018-12-18T06:53:16.470

0 投票

1 回答

594 浏览

python - 刮下文字

我正在尝试提取 cpu 的套接字类型，如下图所示。我已经确定套接字类型位于<h4>Socket 标题下，如下图所示。

到目前为止，我已经能够抓取.spec.block并找到所有<h4>'s嵌套在里面的东西。但是我无法获取每个标题下的文字

这是我的代码

这打印

但是，当我将打印语句更改为：

我收到以下错误：

AttributeError：“列表”对象没有属性“文本”

更新：

此代码打印：

制造商 AMD 这是第一个标题和文本，但我需要第四个

知道我可以使用什么代码来达到预期的结果吗？

2018-12-21T07:51:35.943

0 投票

1 回答

2127 浏览

python - 抓取网页

（Python）

问题：

有一个网站https://au.pcpartpicker.com/products/cpu/overall-list/#page=1<li>下有一个列表，列表中的<ul>每个项目都包含一个<div>带有类标题的类中还有 2 个<div>元素第一个有一些文本示例3.4 GHz 6-Core (Pinnacle Ridge)我想删除所有不在括号中的文本以获得Pinnacle Ridge。删除列表后，我想通过更改#page=进入下一页。

代码：

我不太确定只有片段，但这里是：

从 requests_html 导入 HTMLSession 会话 = HTMLSession()

预期结果：

我想遍历每个页面，直到没有人找到每个列表并获取不需要保存的名称，因为我有代码在创建它时保存它。

如果您需要更多信息，请告诉我

谢谢

python html python-3.x beautifulsoup python-requests-html

2018-12-28T23:56:49.360

0 投票

1 回答

886 浏览

python-3.x - Python - 无法将发布请求发送到登录表单

我正在尝试发送 POST 消息以登录到 Web 界面，进行身份验证，并使用 cookie 下载设备上的可用历史数据。

问题：我的 POST 请求似乎不起作用，因为代码一直无法通过身份验证并返回登录源页面内容并且没有 cookie。我认为我使用的表单数据不正确但不确定是什么问题？

设备登录web界面源代码

我看到了表单动作：

这是成功认证后的源代码 （手动登录）

您能否建议正确的方式来获得身份验证并发送 POST 请求并登录到网站？

谢谢！！

python-3.x python-requests python-requests-html

2019-01-14T18:51:20.633

0 投票

1 回答

60 浏览

python - 使用第一个呼叫响应作为参数无法成功进行第二个呼叫

我是 Python 的初学者，我正在尝试使用 python 访问以下数据。

1) https://www.nseindia.com/corporates/corporateHome.html，点击左侧窗格中“公司信息”下的“公司公告”。2) 输入公司代码（例如 KSCL）并选择公告期 3) 单击任何单个行主题以获取更多详细信息

前两个步骤转换为以下网址“ https://www.nseindia.com/corporates/corpInfo/equities/getAnnouncements.jsp?period=More%20than%203%20Months&symbol=kscl&industry=&subject= ”。这在我的 python 请求代码中运行良好。

但是我无法复制第三步，请求成功但我没有获取数据。以下是我正在使用的代码，我被卡住了，请帮忙。

当我从浏览器尝试这个时，我将所有请求标头与我使用 python 发送的内容进行了比较，它们匹配。我也尝试发送 cookie，但没有成功。我认为可能不需要 cookie，因为网站在禁用 cookie 后也可以在浏览器中运行。我在 Python 3.5 上运行它。

当我从浏览器尝试此流程时，第二个呼叫响应将具有指向另一个 pdf 的 href 链接。但我没有在我的 python 响应中得到那个 href 链接。

python python-3.x python-requests python-requests-html

2019-01-15T18:16:21.443

0 投票

1 回答

300 浏览

python-3.x - 将 RoboBrowser 与 Requests-HTML 相结合

我喜欢使用 RoboBrowser 轻松填写和提交在线表单，并且我想我知道如何访问 RoboBrowser 底层的 requests.Session() 实例，如果我需要使用它的话。

但我想使用 RoboBrowser 提交一个表单，然后将会话传递给 requests_html.Session() 以便我可以使用 JavaScript 呈现 HTML。我怎么做？有没有办法将 Requests 会话转换为 Requests-HTML 会话？

我查看了 Requests、Requests-HTML 和 RoboBrowser 的文档，以及所有关于 Requests-HTML 的 SO 问题。我也用谷歌搜索了答案。这些来源都没有帮助。

我知道为此目的使用 Selenium 可能更容易，但这是针对工作中的项目，我无法安装 Selenium。我相信我关于如何将 Requests 会话转换或传递到 Requests-HTML 会话的更广泛的问题对 Python 社区来说是一个有用的问题。

python-3.x python-requests robobrowser python-requests-html

2019-01-16T10:27:34.510

0 投票

1 回答

1334 浏览

python - 带有下拉列表选择器的 Python requests-html

我正在一个站点上执行抓取，该站点包含一个用于检索数据和一个下拉列表输入的 java 脚本。我正在使用 requests-html 处理 java 部分，但我很难在下拉列表中选择值。

这是我的代码：

输出是 bs4.element.tag：

如您所见，下拉列表中的选定值是 1 月 16 日，即使我指定了 15 日。主表中的期货数据也是16日的。

使用 pandas 提取表格的代码非常简单：

在提取 html 之前，如何从选项中选择日期？

（另外，附注，如果 requests-html 可以做与我使用 BeautifulSoup 相同的事情，那么我很想知道如何。）

python python-3.x python-requests python-requests-html

2019-01-17T11:34:59.557

0 投票

1 回答

276 浏览

python - 如何使用 Python (requests-html) 在网站上获取 .xls 文件的文件名

我正在尝试从芬兰药品价格机构抓取 excel 文件

我正在使用 requests-html 来查找指向 excel 文件的链接：

这适用于 excel 文件的内容，但所选元素没有关于文件名称的信息。文件名包含文件中价格适用时期的信息。例如链接http://www.hila.fi/c/document_library/get_file?folderId=792534&name=DLFE-4531.xls获取文件Viitehintaluettelo Q4_2009_paivitetty.xls。

如何将此文件名作为字符串获取，以便从中提取时间信息Q4_2009？

python excel web-scraping python-requests python-requests-html

2019-01-24T08:43:17.597

问题标签 [python-requests-html]

问题：

代码：

预期结果：

Reference