问题标签 [webharvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml-parsing - 在 WebHarvest 中禁用 XML 验证
我已经在 Apple 的应用商店中发布了一个移动应用程序。
此 SPI 客户端应用程序使用服务器端的 Rest API 来检索有关巴士到达特定巴士站的实时信息。
该应用程序像魅力一样运行了 6 个月。
Rest API 使用 WebHarvest 从网站(例如:http ://www.metlink.org.nz/stop/4912/departures )中提取真实数据信息。
几天前,从我的服务器端代码中抓取的 HTML 页面通过添加以下行进行了更改:
从那时起,我的应用程序就停止了工作。
我知道我可以使用 regExp 剥离上面的行,但我想知道是否有办法通知 WebHarvest 禁用 XML 验证。禁用 XML 验证,我不需要进入我拥有的每个配置并将我的 xpath 表达式更改为 regExp 以剥离上面的行。
这是我的配置文件:
如果我在 WebHarvest GUI 中运行它,上面插入的配置文件工作正常(奇怪)。但是,在我的 Rest API 中运行它时收到错误消息。这是我收到的错误:
提前致谢。
xml - WebHarvest 一个请求需要 50 个结果
我是这种语言的新手,我被困在一个简单的任务中。
基本上我想得到 50 个结果,而不是搜索者给我的基本 10 个结果作为基本结果。这将是代码:
谁能告诉我怎么解决这个问题!???请!!
web - 如何在谷歌图片中获取大图片
我想从谷歌图片搜索中收集图片。但是,我经常收到错误通知。
例如,https://www.google.com/search?q=banana&hl=en&gws_rd=ssl&tbm=isch
我的浏览器中的 URL 很好,但在网络收获中它报告说:对实体“gws_rd”的引用必须以 ';' 结尾 分隔符。
我猜 '&' 是 webharvest 中的一个特殊字符,但我找不到有关它的信息。你能弄清楚为什么吗?
这是代码:
webharvest - 尝试使用 WebHarvest 在子链接中获取信息
我想抓取每个子链接的信息,但程序显示错误。下面是我的完整配置文件。错误是由以下原因引起的:org.xml.sax.SAXParseException; 行号:6;列号:724;元素类型“t.length”必须后跟属性规范,“>”或“/>”。**
webharvest - 从 WebHarvest 提取后如何替换字符串?
我想将从网站提取的记录插入数据库,但提取文本包含符号撇号,并导致我在 sql 插入期间出现语法错误。我可以知道如何在 WebHarvest 中用“'”代替撇号吗?
提前致谢!
webharvest - Webharvest 爬虫脚本未创建 XML 文件
我希望有人能指出我(可能是愚蠢的)这个脚本的问题。我正在尝试爬取网站以获取该网站上的帖子并将其加载到 XML 文档中。我尝试结合几个示例脚本 - 爬虫和 nytimes 示例。
该脚本运行没有错误,但只<edublogs date="02.10.2015"></edublogs>
导出标签。
在此先感谢您的帮助。
r - How to webscrape share counts in R
I am trying to download the share count from the left SumoMe plugin of this website http://www.r-bloggers.com/erum-2016-first-european-conference-for-the-programming-language-r/
I try to use R code based on rvest
package
But have received empty response. The page looks like to start with 0 share-count and then it updates after a few second after you spend time on that website. Can someone could suggest any possible solution to that or advice any package? Is RSelenium a good package for that? I haven't used it before.
html - div后文本的XPath?
如何使用 XPath 1.0/2.0 提取数字“-105”?
我试过:
variables - 获取变量时出现 XSLT 错误
我正在尝试将变量分配到 xsl 文件中,并稍后在此文件中使用它们。
这是我分配它们的方式:
当我尝试使用它们时
我得到错误!为什么?
如果我只删除
线,没关系。所以看来我没有正确访问变量。