问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
347 浏览

xquery - 是否可以在 xquery 中使用字符串变量作为标记

我可以在 xquery 中使用类似以下的内容吗?基本上我想使用字符串变量作为标签。我正在使用网络收获来提取数据。任何帮助或指针表示赞赏。

0 投票
1 回答
489 浏览

selenium - HtmlUnit 抓取 google+ 页面 javascript。单击显示更多按钮不起作用

我正在尝试废弃此页面https://plus.google.com/115016587855962294424/about。一切正常,但是当我尝试单击显示更多以加载更多评论时,这里没有任何反应是我的代码

点击此处显示更多

但什么也没发生我什至尝试过

有什么建议么 ?

更新:

*有人建议我通过子类 HttpWebConnection 修改传入的 JavaScript 代码并将 getResponse() 覆盖为: *

关于如何准确完成以及需要修改什么的任何建议,我尝试了以下 API 的 htmlunit jsoup webharvest selenium

0 投票
1 回答
5256 浏览

xml - xpst0003 xquery 语法错误

我想通过以下 x 查询代码查询网页。请帮我。它给了我以下错误: XPST0003: XQuery syntax error in #...//json//sentences//trans); 让#:预期​​“返回”,找到“;”。

0 投票
2 回答
355 浏览

webharvest - 通过网络收获从子链接收集数据

有没有办法从 Web Harvest 的子链接收集数据?

下面是我使用的一个 xml 段:

如何在这个新的 url 上获取数据库,现在是 $url?

请帮我。谢谢。

0 投票
1 回答
273 浏览

webharvest - WebHarvest - 使用身份验证刮取数据

我正在使用 WebHarvest 工具从几个网站上抓取 Web 数据。我已经浏览了这些示例,但无法找到一种在网站中进行身份验证然后从中抓取数据的方法。

任何人都可以举一个示例配置来通过身份验证实现网络数据抓取吗?如何发送登录参数,然后接收主页内容?感谢您对此的帮助。

0 投票
1 回答
193 浏览

webharvest - 使用 Web 收集从 Pdf 中提取数据

如何使用 Web Harvesting 从 PDF 中提取数据?我在页面中获取了所有相关的 PDF url,但我无法从这些 Pdf 中提取数据。我正在使用 Web Harvest 2.0 版来提取 Pdfs url。请帮忙。

我将如何将 pdfcommand 合并到网络收获中以获取文本?在不运行任何批处理文件的情况下还有其他方法吗?

0 投票
1 回答
344 浏览

html - 使用 webharvest 从网站抓取数据

我正在尝试使用 webharvest 从网站“http://www.tecomdirectory.com/”中抓取所有 html 页面。但是该脚本无法抓取所有的 html 页面,并且只抓取了少数 html 页面。我正在使用以下脚本:

请帮忙。提前致谢

0 投票
1 回答
185 浏览

java - 如何使用 Java 中的 Web-Harvest 库输出浏览器用户代理字符串

使用Web-Harvest 库创建的应用程序测试一些问题无济于事。我们的网络环境混合了代理和其他过滤器,我试图排除有问题的用户代理字符串。

我认为问题在于如何在应用程序中指定字符串,但我不知道如何输出提供的字符串以进行调试。

我可以在 IDE 调试器中看到该字符串,但我确实需要这个输出以供其他人在服务器上进行测试。

0 投票
1 回答
525 浏览

xpath - Webharvest if/else 和 try/catch 总是成功

我正在做一个需要从网站收集一些数据的项目,所以我正在使用 webharvest。

我遇到了一个问题,我正在收集的数据(来自新闻网站的评论)有时会超过一页。我正在尝试将其配置为在网页的 xpath 中查找第二页评论的链接。问题是,如果我尝试if测试,条件总是通过,如果我尝试try语句,try主体总是成功。这导致我的脚本从第一页(如果只有一个)中提取评论两次。然而,带有两组评论的文章效果很好。所以我的问题与if条件和try语句的语法有关。Webharvest 上关于这些功能的文档很少。

这就是我正在尝试的。一、if测试:

二、try/ catch

测试的问题if在于,尽管当不存在第二页时变量为空(我可以从 gui 中的调试中看到),但if似乎返回 true,并运行它的主体。

我可以更容易地看到为什么try/catch不能正常工作,因为 xpath 不返回任何值(如果第二页不存在)不会构成“错误”,因此尝试仍然会成功。另一个困难是下一页链接的@href 是相对的,因此需要附加到第一页的URL(或文章的基本URL,实际上,但这里相同),这意味着我的html -to-xml 采用 url ${firstPage}${secondPageLink},它最终只是再次成为第一页 URL,因此 webharvest 第二次处理第一页。

如果有人可以重新制定我的if测试以在 secondPageLink xpath 返回空值时返回 false,我将非常感激!

0 投票
1 回答
259 浏览

webharvest - 将数字添加到 WebHarvest 中的变量

我应该首先说我对 javascript 很陌生。

我需要根据一个数字向 webharvest 提供一堆 url。这是一个很长的故事,但我的 url 结构看起来像这样: http://www.example.com/foo/bar?page=0. ?page=每步增加25。所以下一页将是http://www.example.com/foo/bar?page=25thenhttp://www.example.com/foo/bar?page=50等等。有一个最大值,我可以通过另一个变量设置它,称之为${maxpages}

所以我需要做的是修改一个变量以输入其他完全可预测的 url,以便每次添加 25 个变量。我正在考虑做一个while循环,如下所示:

所以我真的不确定这里的语法。

我的问题是:

  1. 如何检查我的变量 pageNo 在 while 条件下是否小于 maxpages?

  2. 您可以将整数添加到 webharvest 中的变量吗?如何?