问题标签 [ghost.py]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
157 浏览

javascript - Ghost.py 网页抓取列出页面中的所有元素

我正在尝试使用 Ghost.py 在网页上填写表格。目前我正在努力解决正确的表单字段,css 选择器让我头疼。所以我决定让 Ghost.py 完成这项工作并给我一个包含表单字段和标识符的列表。到目前为止,我已经尝试过:

这会引发错误:

我不知道是什么原因造成的,有人可以指出我应该看的方向吗?

0 投票
1 回答
105 浏览

python - 使用 python 无头浏览器获取 html 响应

我正在尝试制作一个执行多个搜索并下载结果的自动化系统。我需要首先获得网站的身份验证,直接到搜索页面,设置搜索参数,制作包含一些通过邮寄发送的值的 html req,获取作为 html 的响应以解析下载和下载的内容。你能帮助我并将我重定向到一些样本以了解如何做这样的事情吗?什么是最好的软件包?

最好的

0 投票
1 回答
655 浏览

python - 无法在 python 3.6.3(和 PyQt5)上运行 Ghost.py

我试图在 Python 3.6.3 上使用 Ghost.py,但出现错误

...引发异常(“Ghost.py 需要 PySide 或 PyQt4”)

我安装了 PyQt5。消息很清楚,但在https://github.com/jeanphix/Ghost.py的规范中有关于 QT5 的信息。这是一样的吗?如何使 Ghost.py 正常工作?

0 投票
0 回答
243 浏览

python-2.7 - 如何使用 Python (Ghost.py) 获取 XMLHttpRequest (XHR) 的请求正文?

我正在尝试加载网页并监视 XHR (XMLHttpRequests)。为此,我将 Ghost.py 与 Python2.7 一起使用。我可以看到正在生成的 XHR,并且可以读取 URL 和响应,但是我想读取请求正文,以便以后可以重新创建这些请求。

我在文档中进行了搜索,但找不到对 XHR 请求正文的任何​​引用,并且我在返回的资源对象中搜索了对请求的引用,但只能找到 request.headers (不包括 POST 正文)和 _reply数据。

您可以保存 XHR 请求的 POST 正文以及响应吗?

0 投票
1 回答
33 浏览

pyside - 让 ghost.py 的 QWebView 对用户操作做出反应(附加事件循环线程?)

ghost.py我在 IPython 交互式控制台中打开一个网页并显示它的窗口以查看我的操作的效果:

该窗口显示页面的内容,但如果我尝试拖动或调整它的大小,或使用它的滚动条,它不会做任何事情,并且它的标题附加了“(不响应)”。看起来窗口的事件循环没有运行。

由于我在交互式控制台中工作,因此我需要运行事件循环,并在后台线程或其他东西中执行此操作。我怎么做?

0 投票
1 回答
57 浏览

python - 在 Ghost.py 脚本中使用 python 变量

我试图用 Ghost.py 多次填写表格,我需要输入到表格中的值在一个列表中,程序如下所示:

如何将 inputData 列表中的值传递给脚本内的 querySelector 方法?我一直在尝试一切,到目前为止还没有运气。

使用带有 PyQt4 的 Ghost 0.2.3 运行 python 2.7。提前致谢。

0 投票
1 回答
163 浏览

python - 使用 Ghost.py 抓取受密码保护的网站

我正在尝试使用 Ghost.py 获取受密码保护的站点的 HTML 内容。

我必须访问的 Web 服务器具有以下 HTML 代码(我只将其剪切到重要部分):

网址:http: //192.168.1.60/PAGE.htm

每次加载页面时,“#hpsw_id”的值都会发生变化。

在普通浏览器上,一旦您输入正确的密码并按回车键或单击“提交”按钮,您将进入同一页面,但现在显示的是真实内容。

网址:http: //192.168.1.60/PAGE.htm

首先我尝试使用 mechanize 但失败了,因为我需要 javascript。所以现在我正在尝试使用 Ghost.py 来解决它

到目前为止我的代码:

此代码未正确加载内容,在控制台中我得到:

回溯(最后一次调用):文件“”,第 8 行,文件“/usr/local/lib/python2.7/dist-packages/ghost/ghost.py”,第 181 行,包装器 timeout=kwargs.pop ('超时',无))文件“/usr/local/lib/python2.7/dist-packages/ghost/ghost.py”,第1196行,在wait_for_page_loaded'无法加载请求的页面',超时)文件“/ usr/local/lib/python2.7/dist-packages/ghost/ghost.py",第 1174 行,在 wait_for 中引发 TimeoutError(timeout_message) ghost.ghost.TimeoutError:无法加载请求的页面

两个问题...

1) 我怎样才能成功登录到受密码保护的站点并获得PAGE.htm的真实内容?

2)这个方向是最好的方法吗?或者我完全错过了一些能让事情更有效地工作的东西?

我正在使用 Ubuntu 伴侣。