问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
547 浏览

xml - eclipse中的webharvest实现

我有一个 XML 配置(ScreenScraper),可以在 WebHarvest 的可执行版本中正确执行我想要的操作。我对如何通过 Java 执行它感到困惑。

0 投票
2 回答
449 浏览

xml - webharvest 不检索数据

我的 webharvest 运行没有错误,但是当我打开 XML 文件时,它没有正确的数据,它只是打印出来。这是我的代码:

0 投票
1 回答
680 浏览

xml - 网络收获——去除不寻常的字符

我正在尝试抓取在锚点后有一些空格的页面:

我似乎找不到指定文本的方法,我要么触发处理器错误,要么无法检测到字符串本身。之后的所有内容都会导致 html-to-xml 转换失败,因为包含字符时 xml 格式不正确。因此,我需要删除之后的所有内容(请注意,在文档的其他部分之后还有其他部分有 div 标签或其他内容)。

我的代码:

我认为我的问题在于正则表达式模式。我试过了:

除其他事项外。我什至尝试将表达式放在 CDATA 元素中,但我也无法让它工作。

有什么想法吗?

0 投票
1 回答
616 浏览

webharvest - WebHarvest 找不到响应标头

我正在使用 WebHarvest 从需要登录的站点获取数据。

它的设置是这样的:

第 1 页 = 登录页面

第 2 页 = 登录验证页面

第 3 页 = 统计页面

在第 2 页设置了 cookie。使用 Firebug 监视第 2 页的打开时,我得到以下标题:

使用 WebHarvest 调用同一页面时,我只得到这些标题:

WebHarvest 似乎找不到三个标头(Set-Cookie、Connection 和 Keep-Alive)。第 1、2 和 3 页是虚拟的,因此没有进行实际验证。cookie 始终在服务器端为第 2 页设置。

这是我目前使用的 WebHarvest 代码:

编辑:检查时我注意到 cookie 是在 WebHarvest 中设置的,即使无法以编程方式找到 http 标头。是否有可能隐藏了某些响应标头的使用?

有谁知道这个问题的解决方法?

谢谢你和最好的问候, SiggeLund

0 投票
2 回答
1238 浏览

java - 在 web 收获 xml 中使用正则表达式

我正在使用网络收获来废弃一些电子商务网站。我正在遍历搜索页面并在输出 xml 中获取每个产品详细信息。但现在我想在抓取时在锚(a)标签中使用正则表达式并获得特定字符串.ie,

上面的行返回每个产品的锚标签 href 值,即,对于第一个产品,返回的值是,

现在我想使用像 /([^/\?]+)\? 这样的正则表达式 并获取最后一个 / 和 ? 之间的字符串 IE,

在输出 xml 中。请任何对此有任何想法的人帮助我。谢谢你。

更新 -

我的配置 xml 如上所示。在我的 xml 中何处使用正则表达式代码块?而且我希望将正则表达式应用于linktoprod,并最终将链接标记中的正则表达式输出作为输出xml。请任何人指导我。谢谢你。

0 投票
0 回答
113 浏览

java - 如何在 Google App 引擎上运行 Webharvest?

我开发了一个带有网络收获的刮刀( http://web-harvest.sourceforge.net/)。但是,我想让程序在服务器上运行。可以在谷歌应用引擎上运行这个系统吗?谢谢你的回复!

0 投票
2 回答
997 浏览

java - 网络收获 - 抓取一个网址

我正在使用网络收获。但是,我想从 URL 中抓取数据:

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=×tamp=1363305908912

我的代码是:

但是我得到:

对实体 Bezirke 的引用必须以“;”结尾

我不明白网络收获是什么意思,带有';'?

0 投票
1 回答
607 浏览

xml - WebHarvest XML 格式不正确

我正在使用 WebHarvest 尝试从 Woot.com 接收数据,但遇到了一些不同的错误。我可以通过第一个进程获取网站,但是当我尝试在变量窗口内测试 xpath 时,我收到错误org.xml.sax.SAXParseException; 行号:86;列号:99;对实体“pt2”的引用必须以“;”结尾 分隔符。如果我尝试使用它返回的漂亮打印函数XML 格式不正确:对实体“pt2”的引用必须以 ';' 结尾 分隔符。{行:86,列:99]。最后,在我正在编写的脚本内部,如果我将 xpath 标记与表达式一起放入,我会得到元素类型“xpath”必须后跟属性规范、“>”或“/>”。有人可以告诉我我做错了什么吗?我对 WebHarvest 很陌生,对这种程序没有任何经验。

我的代码是:

0 投票
1 回答
986 浏览

xml - xpath 返回的限制列表

我正在尝试在 WebHarvest 中使用 xpath,并且能够接收大量数据,但是我只需要返回前 5 个字符串。

我曾尝试使用 *[position()<6] 但我得到错误与元素类型“null”关联的属性“表达式”的值不能包含“<”字符

0 投票
2 回答
1134 浏览

xml - Webharvest If 和 null 测试

我试图让我的程序检查 xpath 表达式的返回,如果它为 null,它应该尝试不同的,我该怎么做?我已经尝试了网站上的所有示例,空白单引号将无法编译。

还有什么方法可以操作定义的变量来排除字符串的某些部分,如符号和数字?