问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
robotframework - 在robotframework中使用RESTinstance库时有没有办法使用ntlm身份验证
我想使用带有 ntlm 身份验证的RESTInstance
库 - https://github.com/asyrjasalo/RESTinstance
我已经通过使用auth
设置尝试了各种设置GET command
这就是我的代码的样子,但authorization
在服务器上失败了
我收到一条unauthorized
错误消息
python - Python 请求保存随机生成的图像
我正在尝试使用 python 请求来保存网页中的图像。但是,图像是通过php随机生成的,如下面的代码所示,并且每次都不一样。该图像用于验证码,并在每个请求之间更改。
<img src="image.php">
我将如何正确保存此图像?
html - 我如何 webscrabe 图像链接选项卡
我正在尝试对图像选项卡进行网络抓取,以便获得可以使用的链接,这样我就可以直接访问我正在制作的项目的图像。
问题是,每当我尝试编写 "print(soup.find('a' , class_ = 'q qs')) 时,如果没有,它就会给出输出
我遇到的另一个问题是视频和新闻标签等其他标签具有相同的标签但链接不同,那么我该如何区分两者?
图片链接的 HTML 我希望我可以在这里放一个屏幕截图,因为这很难理解。
图像标签
图像链接的 HTML
视频标签
视频链接的 HTML
您可以看到图像和视频选项卡的标签是相同的,我只有一个可以检索其中一个,我该怎么做呢,我只想要指向图像选项卡的链接而不是视频选项卡。
python - Selenium Chrome 网络驱动程序在网页上不一致地执行 JS 脚本
例如,我正在尝试抓取 PubChem 上的文章,例如这篇文章。PubChem 要求浏览器启用 Javascript,否则它会重定向到几乎没有内容显示“此应用程序需要 Javascript。请打开 Javascript 以使用此应用程序”的页面。为了解决这个问题,我使用 Selenium 库中的 Chrome Web 驱动程序来获取 PubChem 使用 JavaScript 生成的 HTML。
它大约有一半的时间这样做。它还经常不呈现完整的 html,并重定向到 Javascript 警告页面。如何使脚本始终如一地检索网站的 JS 版本?
我也尝试通过使用 PhantomJS 来解决这个问题,除了 PhantomJS 在安装后不知何故无法在我的机器上运行。
没有任何错误消息。唯一的问题是,有时网络爬虫无法按预期获取 JS 渲染的网页。太感谢了!
python - 我似乎无法在 python 中处理来自 regex(re.search) 的空白结果,我要么得到重复,要么没有结果?
我正在尝试从https://www.ourcommons.ca/Parliamentarians/en/members?view=List中提取个人名单。获得列表后,我会浏览每个成员的链接并尝试找到他们的电子邮件地址。
一些成员没有电子邮件,因此代码失败。我尝试添加匹配结果为无的代码,在这种情况下我得到重复的结果。
我正在使用以下逻辑进行匹配
if 条件是问题所在。当我使用 else 时,它会为每一行提供一次“未找到电子邮件”。
提取电子邮件
预期结果:为有一个的页面显示电子邮件,为没有的页面显示一个空白。
javascript - Python 请求从 GET 运行 JS 文件
目标
使用 python 请求等登录到这个网站(https://www.reliant.com)(我知道这可以用 selenium 或 PhantomJS 或其他东西来完成,但不希望这样做)
问题
在登录过程中,有几个重定向,其中传递了“会话 ID”类型的参数。其中大部分我可以得到,但有一个dtPC
似乎来自您第一次访问该页面时获得的 cookie。据我所知,cookie 来自这个 JS 文件(https://www.reliant.com/ruxitagentjs_ICA2QSVfhjqrux_10175190917092722.js)。这个 url 是浏览器在主 url 的初始 GET 之后执行的下一个 GET 请求。到目前为止,我尝试过的所有方法都未能让我得到那个 cookie。
到目前为止的代码
python - 单击带有 Python 和请求的按钮
我需要他们的帮助来请求单击带有 python 和请求的按钮。
表单的 HTML 代码是这样的:
我一直在尝试使用此代码并且登录成功,但下一部分没有,好吧。它不会给我错误,而只会给我正文的 html。
python - 使用 python requests-html 库提交(POST)表单失败
我正在使用 python 3.7 和 requests-html 库。
我试图在会话中将获取请求发送到带有表单的站点。首先,我使用响应来获取 CAPTCHA 图像并下载它,然后在同一会话中发送一个 POST 请求,包括解码的 CAPTCHA 代码。发送获取请求并获取“ProcessKey”和验证码图像的第一部分效果很好。
出于某种原因,我发送 POST 请求的第二部分不断将我重定向到上一页并且它无法正常工作。
正如您在我的代码中看到的那样,我尝试将用户代理和请求标头更改为与我使用 chrome 开发面板获得的类似。
在我使它与 Selenium 库一起工作之前,但它不适合使用。
请帮助我了解这里出了什么问题,或者除了 Selenium 之外是否还有其他库可以做到这一点
先感谢您!
python - requests-html "RuntimeError: 在烧瓶端点上使用线程 'Thread-1' 时没有当前事件循环
我有一个简单的烧瓶 API,其中一个端点调用另一个文件中的方法以使用 request-html 从站点呈现一些 javascript
该方法的代码如下所示:
调用端点后,我收到此错误:
我在网上读到,如果 HTMLSession 在主线程之外使用,它就不能正常工作,因为烧瓶在它自己的线程上运行,这可能是导致错误的原因。
python - 需要在代码中放入哪些参数才能正确执行 requests.post 函数?
需要为该站点(www.pyszne.pl)设置哪些参数才能正确执行请求功能?我需要有一个 url,它指向特定邮政编码下的餐厅。
这是我的代码:
我只收到相同的主页网址https://www.pyszne.pl/