问题标签 [htmlunit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
182 浏览

java - Jwebunit 和 Wordpress

我正在尝试使用 Jwebunit 登录我在 wordpress 上运行的网站。

上面没有抛出任何错误,但是页面没有被提交。如果我尝试输入错误的密码,它会抛出错误,但是当所有值都正确时,提交不会转到新页面。

知道为什么会发生这种情况吗?

0 投票
3 回答
520 浏览

javascript - 使用 Celerity 下载文件

我在 JRuby 中使用 Celerity 来自动从某些网站下载一些 .csv 文件。对于其中一个网站(LinkShare),我已经非常接近但无法弄清楚最后一步。

该网站使用 javascript 和“隐藏 iframe”方法推送文件下载 - 在常规浏览期间,当您单击下载按钮时,它会调用 javascript 来创建包含下载内容的隐藏 iframe,浏览器会选择并提示用户保存文件。

显然,在 Celerity 中的工作方式并不完全相同。单击链接后,我可以在 jirb 中看到新的 iframe,但无法在其上调用任何方法,出现如下错误:

有人对 Celerity/Htmlunit/Javascript/Jruby 有足够的经验,他们可以为我指明正确的方向吗?我只想检索下载内容(.csv 文件)。

或者,是否有人知道更适合该任务的(无头)浏览器自动化工具,如果存在的话?

0 投票
1 回答
7359 浏览

htmlunit - 是否有 HTMLUnit 登录和点击几下的工作示例

可能显示 Javascript 测试支持

但我得到:

2010 年 11 月 17 日下午 3:41:14 com.gargoylesoftware.htmlunit.IncorrectnessListenerImpl 通知警告:遇到过时的内容类型:'text/javascript'。构建成功(总时间:4 秒)

这无济于事,因为它不作为单元测试运行,并显示通过/失败等。

我正在使用 netbeans 6.9.1

0 投票
6 回答
13474 浏览

screen-scraping - 替代 HtmlUnit

我一直在研究迄今为止可用的无头浏览器,发现 HtmlUnit 被广泛使用。与 HtmlUnit 相比,我们有任何替代 HtmlUnit 的可能优势吗?

谢谢奈恩

0 投票
1 回答
1032 浏览

xpath - Groovy htmlunit getByXPath

我目前正在使用 HtmlUnit 尝试从页面中获取 href 并且遇到了一些麻烦。

XPath 是:

在网页上它看起来像:

在我的代码中,我正在做:

但是,这将返回其中的所有内容,而不仅仅是我想要的 url。

有人可以解释我必须添加什么才能获得href吗?(也不以 .html 结尾)

0 投票
1 回答
1243 浏览

sockets - 如何使用 socketaddress 在 HtmlUnit 中设置代理?

我需要知道如何使用 socketaddress 在 HtmlUnit 中设置代理?我试过以下..


这是我得到错误的地方..!


0 投票
2 回答
9625 浏览

htmlunit - Java HtmlUnit - 无法登录到 wordpress

我正在尝试使用 HtmlUnit 登录到我的本地 wordpress 网站,但它似乎有 cookie 问题。

那就是代码的开头:

这就是我在日志中得到的。有人有想法吗?谢谢。

2010 年 11 月 27 日下午 12:43:35 org.apache.http.client.protocol.ResponseProcessCookies processCookies 警告:Cookie 被拒绝:“[版本:0][名称:wordpress_2418eeb845ebfb96f6f1a71ab8c5625a][值:+][域:本地主机][路径:/flowersWp/wp-admin][有效期:2009 年 11 月 27 日星期五 12:43:35 IST]"。非法路径属性“/flowersWp/wp-admin”。来源路径:“/flowersWp/wp-login.php”

0 投票
1 回答
608 浏览

htmlunit - HtmlUnit 在获取元素之前是否解析 HTML。如何获取HtmlUnit生成的请求

1) HtmlUnit 是否在获取元素之前解析 HTML(通过诸如 HtmlWebPage.getElementBy... 之类的东西)?可以关掉吗?这似乎是最长的手术之一。我想自己解析整个响应,而不是真正创建 HtmlElement(但如果有人可以告诉我如何做到这一点,那将很有用),而只是为了获得内容。


2) 有没有办法让 HtmlUnit 将请求发送到主机?


3) 是否设置新的 setStatusHandler 'distables' 抛出 ExceptionOnFailingStatusCode?有没有默认的 StatusHandler ?我们可以扩展它吗?

0 投票
1 回答
545 浏览

seo - 如何使用 htmlunit + page.asXml 方法保留我的文档类型

当我使用 HtmlUnit 运行 page.asXml() 时,我丢失了页面的文档类型。有解决办法吗?

注意:目的是为 Google 提供 DOM。

0 投票
2 回答
2680 浏览

xpath - HtmlUnit getByXpath 返回 null

我正在使用 Groovy 进行编码,但是,我不相信它是一组特定于语言的问题。

我其实有两个问题

第一个问题

我在使用 HtmlUnit 时遇到了问题。它告诉我,我试图抓住的东西是空的。

我正在测试它的页面是: http ://browse.deviantart.com/resources/applications/psbrushes/?order=9&offset=0#/dbwam4

我的代码:

这只是打印出来:[]

这是因为页面使用onclick()吗?如果是这样,我将如何解决这个问题?启用 javascript 会在我的 cmd 提示符中造成混乱。

第二个问题

我也想获取图像但遇到了麻烦,因为当我尝试获取 XPath(通过萤火虫)时,它显示为://*[@id="gmi-ResViewSizer_img"]

我该如何处理?