问题标签 [webharvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 问题

0 投票

2 回答

347 浏览

xquery - 是否可以在 xquery 中使用字符串变量作为标记

我可以在 xquery 中使用类似以下的内容吗？基本上我想使用字符串变量作为标签。我正在使用网络收获来提取数据。任何帮助或指针表示赞赏。

xquery webharvest

2013-11-12T08:50:53.830

0 投票

1 回答

489 浏览

selenium - HtmlUnit 抓取 google+ 页面 javascript。单击显示更多按钮不起作用

我正在尝试废弃此页面https://plus.google.com/115016587855962294424/about。一切正常，但是当我尝试单击显示更多以加载更多评论时，这里没有任何反应是我的代码

点击此处显示更多

但什么也没发生我什至尝试过

有什么建议么？

更新：

*有人建议我通过子类 HttpWebConnection 修改传入的 JavaScript 代码并将 getResponse() 覆盖为： *

关于如何准确完成以及需要修改什么的任何建议，我尝试了以下 API 的 htmlunit jsoup webharvest selenium

2013-12-11T19:52:57.583

0 投票

1 回答

5256 浏览

xml - xpst0003 xquery 语法错误

我想通过以下 x 查询代码查询网页。请帮我。它给了我以下错误： XPST0003: XQuery syntax error in #...//json//sentences//trans); 让#：预期“返回”，找到“；”。

xml xquery webharvest

2014-02-06T21:51:31.323

0 投票

2 回答

355 浏览

webharvest - 通过网络收获从子链接收集数据

有没有办法从 Web Harvest 的子链接收集数据？

下面是我使用的一个 xml 段：

如何在这个新的 url 上获取数据库，现在是 $url？

请帮我。谢谢。

webharvest

2014-02-23T03:43:30.027

0 投票

1 回答

273 浏览

webharvest - WebHarvest - 使用身份验证刮取数据

我正在使用 WebHarvest 工具从几个网站上抓取 Web 数据。我已经浏览了这些示例，但无法找到一种在网站中进行身份验证然后从中抓取数据的方法。

任何人都可以举一个示例配置来通过身份验证实现网络数据抓取吗？如何发送登录参数，然后接收主页内容？感谢您对此的帮助。

webharvest

2014-04-14T07:47:13.817

0 投票

1 回答

193 浏览

webharvest - 使用 Web 收集从 Pdf 中提取数据

如何使用 Web Harvesting 从 PDF 中提取数据？我在页面中获取了所有相关的 PDF url，但我无法从这些 Pdf 中提取数据。我正在使用 Web Harvest 2.0 版来提取 Pdfs url。请帮忙。

我将如何将 pdfcommand 合并到网络收获中以获取文本？在不运行任何批处理文件的情况下还有其他方法吗？

webharvest

2014-04-15T15:36:10.173

0 投票

1 回答

344 浏览

html - 使用 webharvest 从网站抓取数据

我正在尝试使用 webharvest 从网站“http://www.tecomdirectory.com/”中抓取所有 html 页面。但是该脚本无法抓取所有的 html 页面，并且只抓取了少数 html 页面。我正在使用以下脚本：

请帮忙。提前致谢

html webharvest

2014-06-07T08:00:46.447

0 投票

1 回答

185 浏览

java - 如何使用 Java 中的 Web-Harvest 库输出浏览器用户代理字符串

使用Web-Harvest 库创建的应用程序测试一些问题无济于事。我们的网络环境混合了代理和其他过滤器，我试图排除有问题的用户代理字符串。

我认为问题在于如何在应用程序中指定字符串，但我不知道如何输出提供的字符串以进行调试。

我可以在 IDE 调试器中看到该字符串，但我确实需要这个输出以供其他人在服务器上进行测试。

java webharvest

2014-06-27T19:13:30.253

0 投票

1 回答

525 浏览

xpath - Webharvest if/else 和 try/catch 总是成功

我正在做一个需要从网站收集一些数据的项目，所以我正在使用 webharvest。

我遇到了一个问题，我正在收集的数据（来自新闻网站的评论）有时会超过一页。我正在尝试将其配置为在网页的 xpath 中查找第二页评论的链接。问题是，如果我尝试if测试，条件总是通过，如果我尝试try语句，try主体总是成功。这导致我的脚本从第一页（如果只有一个）中提取评论两次。然而，带有两组评论的文章效果很好。所以我的问题与if条件和try语句的语法有关。Webharvest 上关于这些功能的文档很少。

这就是我正在尝试的。一、if测试：

二、try/ catch：

测试的问题if在于，尽管当不存在第二页时变量为空（我可以从 gui 中的调试中看到），但if似乎返回 true，并运行它的主体。

我可以更容易地看到为什么try/catch不能正常工作，因为 xpath 不返回任何值（如果第二页不存在）不会构成“错误”，因此尝试仍然会成功。另一个困难是下一页链接的@href 是相对的，因此需要附加到第一页的URL（或文章的基本URL，实际上，但这里相同），这意味着我的html -to-xml 采用 url ${firstPage}${secondPageLink}，它最终只是再次成为第一页 URL，因此 webharvest 第二次处理第一页。

如果有人可以重新制定我的if测试以在 secondPageLink xpath 返回空值时返回 false，我将非常感激！

xpath webharvest

2014-07-17T02:12:09.037

0 投票

1 回答

259 浏览

webharvest - 将数字添加到 WebHarvest 中的变量

我应该首先说我对 javascript 很陌生。

我需要根据一个数字向 webharvest 提供一堆 url。这是一个很长的故事，但我的 url 结构看起来像这样： http://www.example.com/foo/bar?page=0. ?page=每步增加25。所以下一页将是http://www.example.com/foo/bar?page=25thenhttp://www.example.com/foo/bar?page=50等等。有一个最大值，我可以通过另一个变量设置它，称之为${maxpages}。

所以我需要做的是修改一个变量以输入其他完全可预测的 url，以便每次添加 25 个变量。我正在考虑做一个while循环，如下所示：

所以我真的不确定这里的语法。

我的问题是：

如何检查我的变量 pageNo 在 while 条件下是否小于 maxpages？
您可以将整数添加到 webharvest 中的变量吗？如何？

webharvest

2014-07-18T06:32:01.780

1 2 3 4 5 6 7 8 9 10

问题标签 [webharvest]

Reference