问题标签 [webharvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 问题

0 投票

1 回答

547 浏览

xml - eclipse中的webharvest实现

我有一个 XML 配置（ScreenScraper），可以在 WebHarvest 的可执行版本中正确执行我想要的操作。我对如何通过 Java 执行它感到困惑。

2012-07-26T20:53:47.243

0 投票

2 回答

449 浏览

xml - webharvest 不检索数据

我的 webharvest 运行没有错误，但是当我打开 XML 文件时，它没有正确的数据，它只是打印出来。这是我的代码：

xml webharvest

2012-07-26T22:41:04.093

0 投票

1 回答

680 浏览

xml - 网络收获——去除不寻常的字符

我正在尝试抓取在锚点后有一些空格的页面：

我似乎找不到指定文本的方法，我要么触发处理器错误，要么无法检测到字符串本身。之后的所有内容都会导致 html-to-xml 转换失败，因为包含字符时 xml 格式不正确。因此，我需要删除之后的所有内容（请注意，在文档的其他部分之后还有其他部分有 div 标签或其他内容）。

我的代码：

我认为我的问题在于正则表达式模式。我试过了：

除其他事项外。我什至尝试将表达式放在 CDATA 元素中，但我也无法让它工作。

有什么想法吗？

xml regex web-scraping webharvest

2012-10-13T21:05:03.010

0 投票

1 回答

616 浏览

webharvest - WebHarvest 找不到响应标头

我正在使用 WebHarvest 从需要登录的站点获取数据。

它的设置是这样的：

第 1 页 = 登录页面

第 2 页 = 登录验证页面

第 3 页 = 统计页面

在第 2 页设置了 cookie。使用 Firebug 监视第 2 页的打开时，我得到以下标题：

使用 WebHarvest 调用同一页面时，我只得到这些标题：

WebHarvest 似乎找不到三个标头（Set-Cookie、Connection 和 Keep-Alive）。第 1、2 和 3 页是虚拟的，因此没有进行实际验证。cookie 始终在服务器端为第 2 页设置。

这是我目前使用的 WebHarvest 代码：

编辑：检查时我注意到 cookie 是在 WebHarvest 中设置的，即使无法以编程方式找到 http 标头。是否有可能隐藏了某些响应标头的使用？

有谁知道这个问题的解决方法？

谢谢你和最好的问候， SiggeLund

webharvest

2012-10-23T18:53:27.450

0 投票

2 回答

1238 浏览

java - 在 web 收获 xml 中使用正则表达式

我正在使用网络收获来废弃一些电子商务网站。我正在遍历搜索页面并在输出 xml 中获取每个产品详细信息。但现在我想在抓取时在锚（a）标签中使用正则表达式并获得特定字符串.ie,

上面的行返回每个产品的锚标签 href 值，即，对于第一个产品，返回的值是，

现在我想使用像 /([^/\?]+)\? 这样的正则表达式并获取最后一个 / 和 ? 之间的字符串 IE，

在输出 xml 中。请任何对此有任何想法的人帮助我。谢谢你。

更新 -

我的配置 xml 如上所示。在我的 xml 中何处使用正则表达式代码块？而且我希望将正则表达式应用于linktoprod，并最终将链接标记中的正则表达式输出作为输出xml。请任何人指导我。谢谢你。

java xml regex webharvest

2013-01-07T08:25:22.977

0 投票

0 回答

113 浏览

java - 如何在 Google App 引擎上运行 Webharvest？

我开发了一个带有网络收获的刮刀（ http://web-harvest.sourceforge.net/）。但是，我想让程序在服务器上运行。可以在谷歌应用引擎上运行这个系统吗？谢谢你的回复！

java google-app-engine web-scraping webharvest

2013-03-14T15:19:39.173

0 投票

2 回答

997 浏览

java - 网络收获 - 抓取一个网址

我正在使用网络收获。但是，我想从 URL 中抓取数据：

http://derstandard.at/anzeiger/immoweb/Suchergebnis.aspx?Regionen=9&Bezirke=&Arten=&AngebotTyp=×tamp=1363305908912

我的代码是：

但是我得到：

对实体 Bezirke 的引用必须以“;”结尾

我不明白网络收获是什么意思，带有';'？

java eclipse web web-scraping webharvest

2013-03-15T00:09:11.077

0 投票

1 回答

607 浏览

xml - WebHarvest XML 格式不正确

我正在使用 WebHarvest 尝试从 Woot.com 接收数据，但遇到了一些不同的错误。我可以通过第一个进程获取网站，但是当我尝试在变量窗口内测试 xpath 时，我收到错误org.xml.sax.SAXParseException; 行号：86；列号：99；对实体“pt2”的引用必须以“;”结尾分隔符。如果我尝试使用它返回的漂亮打印函数XML 格式不正确：对实体“pt2”的引用必须以 ';' 结尾分隔符。{行：86，列：99]。最后，在我正在编写的脚本内部，如果我将 xpath 标记与表达式一起放入，我会得到元素类型“xpath”必须后跟属性规范、“>”或“/>”。有人可以告诉我我做错了什么吗？我对 WebHarvest 很陌生，对这种程序没有任何经验。

我的代码是：

xml xpath webharvest non-well-formed

2013-04-29T04:04:33.393

0 投票

1 回答

986 浏览

xml - xpath 返回的限制列表

我正在尝试在 WebHarvest 中使用 xpath，并且能够接收大量数据，但是我只需要返回前 5 个字符串。

我曾尝试使用 *[position()<6] 但我得到错误与元素类型“null”关联的属性“表达式”的值不能包含“<”字符

xml regex xpath webharvest

2013-04-29T17:58:01.503

0 投票

2 回答

1134 浏览

xml - Webharvest If 和 null 测试

我试图让我的程序检查 xpath 表达式的返回，如果它为 null，它应该尝试不同的，我该怎么做？我已经尝试了网站上的所有示例，空白单引号将无法编译。

还有什么方法可以操作定义的变量来排除字符串的某些部分，如符号和数字？

xml xpath webharvest

2013-05-02T06:28:23.333

1 2 3 4 5 6 7 8 9 10

问题标签 [webharvest]

Reference