问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
517 浏览

xml-parsing - 在 WebHarvest 中禁用 XML 验证

我已经在 Apple 的应用商店中发布了一个移动应用程序。

此 SPI 客户端应用程序使用服务器端的 Rest API 来检索有关巴士到达特定巴士站的实时信息。

该应用程序像魅力一样运行了 6 个月。

Rest API 使用 WebHarvest 从网站(例如:http ://www.metlink.org.nz/stop/4912/departures )中提取真实数据信息。

几天前,从我的服务器端代码中抓取的 HTML 页面通过添加以下行进行了更改:

从那时起,我的应用程序就停止了工作。

我知道我可以使用 regExp 剥离上面的行,但我想知道是否有办法通知 WebHarvest 禁用 XML 验证。禁用 XML 验证,我不需要进入我拥有的每个配置并将我的 xpath 表达式更改为 regExp 以剥离上面的行。

这是我的配置文件:

如果我在 WebHarvest GUI 中运行它,上面插入的配置文件工作正常(奇怪)。但是,在我的 Rest API 中运行它时收到错误消息。这是我收到的错误:

提前致谢。

0 投票
1 回答
312 浏览

xml - WebHarvest 一个请求需要 50 个结果

我是这种语言的新手,我被困在一个简单的任务中。

基本上我想得到 50 个结果,而不是搜索者给我的基本 10 个结果作为基本结果。这将是代码:

谁能告诉我怎么解决这个问题!???请!!

0 投票
1 回答
53 浏览

java - Webharvest Scraper 类中的 exitExecution() 和 stopExecution() 有什么区别

我想知道两者有什么区别

我曾尝试查看java doc,但在那里找不到任何东西。似乎没有适当的文档。请帮忙。

我需要一种在超时后停止执行刮板的方法,我该怎么做?

0 投票
1 回答
399 浏览

web - 如何在谷歌图片中获取大图片

我想从谷歌图片搜索中收集图片。但是,我经常收到错误通知。

例如,https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch我的浏览器中的 URL 很好,但在网络收获中它报告说:对实体“gws_rd”的引用必须以 ';' 结尾 分隔符。

我猜 '&' 是 webharvest 中的一个特殊字符,但我找不到有关它的信息。你能弄清楚为什么吗?

这是代码:

0 投票
1 回答
117 浏览

webharvest - 尝试使用 WebHarvest 在子链接中获取信息

我想抓取每个子链接的信息,但程序显示错误。下面是我的完整配置文件。错误是由以下原因引起的:org.xml.sax.SAXParseException; 行号:6;列号:724;元素类型“t.length”必须后跟属性规范,“>”或“/>”。**

0 投票
1 回答
113 浏览

webharvest - 从 WebHarvest 提取后如何替换字符串?

我想将从网站提取的记录插入数据库,但提取文本包含符号撇号,并导致我在 sql 插入期间出现语法错误。我可以知道如何在 WebHarvest 中用“'”代替撇号吗?

提前致谢!

0 投票
1 回答
150 浏览

webharvest - Webharvest 爬虫脚本未创建 XML 文件

我希望有人能指出我(可能是愚蠢的)这个脚本的问题。我正在尝试爬取网站以获取该网站上的帖子并将其加载到 XML 文档中。我尝试结合几个示例脚本 - 爬虫和 nytimes 示例。

该脚本运行没有错误,但只<edublogs date="02.10.2015"></edublogs>导出标签。

在此先感谢您的帮助。

0 投票
1 回答
138 浏览

r - How to webscrape share counts in R

I am trying to download the share count from the left SumoMe plugin of this website http://www.r-bloggers.com/erum-2016-first-european-conference-for-the-programming-language-r/

I try to use R code based on rvest package

But have received empty response. The page looks like to start with 0 share-count and then it updates after a few second after you spend time on that website. Can someone could suggest any possible solution to that or advice any package? Is RSelenium a good package for that? I haven't used it before.

0 投票
1 回答
394 浏览

html - div后文本的XPath?

如何使用 XPath 1.0/2.0 提取数字“-105”?

我试过:

0 投票
0 回答
140 浏览

variables - 获取变量时出现 XSLT 错误

我正在尝试将变量分配到 xsl 文件中,并稍后在此文件中使用它们。

这是我分配它们的方式:

当我尝试使用它们时

我得到错误!为什么?

如果我只删除

线,没关系。所以看来我没有正确访问变量。