问题标签 [robobrowser]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
133 浏览

python - robobrowser 是否会阻止 HTML 元素提交类型?

我已经下载了 robobrowser 来帮助我登录网页进行网页抓取。

我了解该过程,但在访问表单元素时遇到问题。

似乎只有一种形式,当我尝试将其转换为字符串的示例时,它似乎正在找到该形式。由于某种原因,除非我转换为字符串,否则它不会在 spyder 工作区中显示为变量。

我查看了 html,用户名条目的名称和 id 确实是“用户名”。我得到错误

它不接受尝试通过“用户名”访问表单中的索引,但是这是我见过的该模块的所有示例中的语法。

0 投票
0 回答
339 浏览

python - Python,robobrowser,登录后回答认证挑战

我对python编程真的很陌生。我正在研究网络浏览器的自动化。我从硒开始,但发现它对于我需要的东西来说真的很慢。

我正在编写一个可以登录网页并填写几个文本框并单击几个按钮的代码。我终于达到了第一部分。我的程序终于可以使用自动浏览器登录了。

我一登录,这个网页就要求我回答一个身份验证问题。

我如何在这里进行表格?我需要输入并提交我的身份验证答案才能继续。在硒中,它会是这样的。

但是,我将如何在 robobrowser/lxml/beautifulsoup 中做到这一点?我需要提交我的答案(在登录时)。先感谢您。

0 投票
0 回答
82 浏览

python - 在 python 中正确解码十六进制转义的 unicode 字符串

我正在使用 RoboBrowser(它使用 BeautifulSoup)从网站中提取链接,其中一些链接包含 unicode 字符。但是我无法让 python 正确解释它。

例如,链接包含此西里尔字符

哪个是 URL 编码为

美丽的汤会吐出来

这对我来说看起来正确但打印出来

п

对应字节数组

正确的编码似乎是

它给出了正确的字节数组并且也正确打印


我猜我做错了什么所以问题是我如何从

0 投票
2 回答
3110 浏览

python - robobrowser 如何按名称查找表单

我正在使用 robobrowser 登录网站。

我遇到的问题是登录页面有 2 个表单,它们都具有相同的操作,但名称不同。

第二种形式是:

我的 python 代码如下所示:

问题是如果我使用:

我收到一个 BadRequestKeyError,我找不到任何有关如何按名称查找表单的文档。唯一的文档说要使用该操作,但表单具有相同的操作属性。欢迎任何建议。

0 投票
0 回答
50 浏览

python - 脚本在本地返回所需的输出,但不在 Heroku 上

我有这个脚本可以从 Bing 中提取图像 URL。当我在我的计算机上运行脚本时,脚本总是返回页面第一张图片的 URL。

但是,我的 API 在 Heroku 上运行,每当我发出请求时,由于某种原因 API 返回错误的 url,可能是第 3、11 个图像 URL 等,即使脚本与我本地的脚本相同。

这是脚本:

我正在拔头发,因为我不知道这是怎么发生的。有任何想法吗?

0 投票
0 回答
220 浏览

python-3.x - Robobrowser 和本地文件

我是使用 Python 3.6.4 和 RoboBrowser 0.5.3 的初学者。我保存了一些 HTML 网页,我正在尝试获取页面中的信息。

很可能是错误的,我从beautifulSoup 上的一个类似问题中获得了灵感。beautifulSoup 解决方案对我有用(BeautifulSoup 4.6.0)。

相比之下,基于 roboBrowser 的以下内容似乎不起作用:

有错误:

MissingSchema:无效的 URL “<_io.TextIOWrapper name='my_file.html' mode='r' encoding='UTF-8'>”:未提供架构。也许您的意思是 http://<_io.TextIOWrapper name='my_file.html' mode='r' encoding='UTF-8'>?

我知道代码需要一个基于“http”的网址。我尝试在文件的绝对路径前添加“file://”,但无济于事。

有没有办法与库进行通信,它是一个本地文件,或者这种功能可能不是 roboBrowser 的一部分?

0 投票
0 回答
68 浏览

html - 无法将值设置为字段 HTML 中不存在的属性

我有这个问题。我正在尝试使用 robobrowser 填写本网站的表格。我在python中的代码如下:

但是,在我填充输入之前,'query_input' 没有属性值,当输入填充时,属性值出现并使用输入值设置。HTML 代码如下所示:

在它为空之前:

设置输入后:

感谢您的任何帮助!

0 投票
1 回答
322 浏览

python - Python RoboBrowser 错误

我正在使用 RoboBrowser 使用以下代码登录网站:

但我得到这个错误:

OSError:[Errno 22] 无效参数:' http ://webpage.com '

我已经尝试了与该网站相关的所有网址,但我总是遇到同样的错误。也许我可以使用另一个库或其他东西。我正在使用 Windows 10 并使用 Python 3.6

0 投票
0 回答
570 浏览

python - Robobrowser 保持活动会话

我编写了一个代码,其任务是登录系统、保持登录状态并下载一系列页面。为此,我使用了一个名为 Robobrowser 的库。我写了这个:

如何获取会话并使其保持活动状态?以后如何访问这些页面?谢谢 :)

0 投票
0 回答
449 浏览

python - 我无法让我的 Python 脚本导入 RoboBrowser

所以我使用以下命令安装了 RoboBrowser:

然后给了我一堆“要求已经满足”的输出,可能是因为我现在已经尝试多次安装它。

然后我转到我的文件目录并运行

这给了我以下错误输出

有谁知道为什么 Python 无法识别我安装了 RoboBrowser 以及如何修复它?

补充说明

  • 当我输入命令pip list时,我没有看到 RoboBrowser 列出。