问题标签 [webharvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 问题

0 投票

2 回答

517 浏览

xml-parsing - 在 WebHarvest 中禁用 XML 验证

我已经在 Apple 的应用商店中发布了一个移动应用程序。

此 SPI 客户端应用程序使用服务器端的 Rest API 来检索有关巴士到达特定巴士站的实时信息。

该应用程序像魅力一样运行了 6 个月。

Rest API 使用 WebHarvest 从网站（例如：http ://www.metlink.org.nz/stop/4912/departures ）中提取真实数据信息。

几天前，从我的服务器端代码中抓取的 HTML 页面通过添加以下行进行了更改：

从那时起，我的应用程序就停止了工作。

我知道我可以使用 regExp 剥离上面的行，但我想知道是否有办法通知 WebHarvest 禁用 XML 验证。禁用 XML 验证，我不需要进入我拥有的每个配置并将我的 xpath 表达式更改为 regExp 以剥离上面的行。

这是我的配置文件：

如果我在 WebHarvest GUI 中运行它，上面插入的配置文件工作正常（奇怪）。但是，在我的 Rest API 中运行它时收到错误消息。这是我收到的错误：

提前致谢。

2014-08-21T10:43:32.717

0 投票

1 回答

312 浏览

xml - WebHarvest 一个请求需要 50 个结果

我是这种语言的新手，我被困在一个简单的任务中。

基本上我想得到 50 个结果，而不是搜索者给我的基本 10 个结果作为基本结果。这将是代码：

谁能告诉我怎么解决这个问题！？？？请！！

xml http search request webharvest

2014-09-08T15:55:39.983

0 投票

1 回答

53 浏览

java - Webharvest Scraper 类中的 exitExecution() 和 stopExecution() 有什么区别

我想知道两者有什么区别

我曾尝试查看java doc，但在那里找不到任何东西。似乎没有适当的文档。请帮忙。

我需要一种在超时后停止执行刮板的方法，我该怎么做？

java web-scraping screen-scraping scraper webharvest

2014-09-17T10:09:24.480

0 投票

1 回答

399 浏览

web - 如何在谷歌图片中获取大图片

我想从谷歌图片搜索中收集图片。但是，我经常收到错误通知。

例如，https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch我的浏览器中的 URL 很好，但在网络收获中它报告说：对实体“gws_rd”的引用必须以 ';' 结尾分隔符。

我猜 '&' 是 webharvest 中的一个特殊字符，但我找不到有关它的信息。你能弄清楚为什么吗？

这是代码：

web web-scraping google-crawlers webharvest

2014-09-19T03:25:35.993

0 投票

1 回答

117 浏览

webharvest - 尝试使用 WebHarvest 在子链接中获取信息

我想抓取每个子链接的信息，但程序显示错误。下面是我的完整配置文件。错误是由以下原因引起的：org.xml.sax.SAXParseException; 行号：6；列号：724；元素类型“t.length”必须后跟属性规范，“>”或“/>”。**

webharvest

2015-06-26T06:10:09.430

0 投票

1 回答

113 浏览

webharvest - 从 WebHarvest 提取后如何替换字符串？

我想将从网站提取的记录插入数据库，但提取文本包含符号撇号，并导致我在 sql 插入期间出现语法错误。我可以知道如何在 WebHarvest 中用“'”代替撇号吗？

提前致谢！

webharvest

2015-07-05T15:34:33.380

0 投票

1 回答

150 浏览

webharvest - Webharvest 爬虫脚本未创建 XML 文件

我希望有人能指出我（可能是愚蠢的）这个脚本的问题。我正在尝试爬取网站以获取该网站上的帖子并将其加载到 XML 文档中。我尝试结合几个示例脚本 - 爬虫和 nytimes 示例。

该脚本运行没有错误，但只<edublogs date="02.10.2015"></edublogs>导出标签。

在此先感谢您的帮助。

webharvest

2015-10-01T15:53:03.520

0 投票

1 回答

138 浏览

r - How to webscrape share counts in R

I am trying to download the share count from the left SumoMe plugin of this website http://www.r-bloggers.com/erum-2016-first-european-conference-for-the-programming-language-r/

I try to use R code based on rvest package

But have received empty response. The page looks like to start with 0 share-count and then it updates after a few second after you spend time on that website. Can someone could suggest any possible solution to that or advice any package? Is RSelenium a good package for that? I haven't used it before.

r web-scraping rvest webharvest

2016-07-08T12:44:01.720

0 投票

1 回答

394 浏览

html - div后文本的XPath？

如何使用 XPath 1.0/2.0 提取数字“-105”？

我试过：

html xml xpath webharvest

2016-09-08T17:59:58.307

0 投票

0 回答

140 浏览

variables - 获取变量时出现 XSLT 错误

我正在尝试将变量分配到 xsl 文件中，并稍后在此文件中使用它们。

这是我分配它们的方式：

当我尝试使用它们时

我得到错误！为什么？

如果我只删除

线，没关系。所以看来我没有正确访问变量。

variables xslt webharvest

2016-12-16T12:39:59.227

1 2 3 4 5 6 7 8 9 10

问题标签 [webharvest]

Reference