问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
689 浏览

web-scraping - 为关键字的前 10 个搜索链接抓取谷歌搜索页面

我想从搜索关键字的谷歌页面中抓取前 10 个搜索链接。

我正在使用网络收获。计划刮掉href链接并使用一些过滤掉前10名

属性模式?方法是否正确,目前不起作用。还有其他简单的方法吗?:(

0 投票
1 回答
1240 浏览

java - WebHarvest 中的 Xquery 错误

我正在使用WebHarvest来解析一些 html。我在 WebHarvest 的 ide 中的以下函数中收到以下错误,我不明白出了什么问题。我正在尝试创建一个修剪字符串的函数。

错误

执行 XQuery 表达式时出错(Xquery=[declare variable $xqsource external; let $result := normalize-space($xqsource) return $result])!

Edit2:日志报告以下 SAX 错误:

[...]原因:org.xml.sax.SAXParseException:prolog 中不允许内容

我不明白在这种情况下这意味着什么。

函数的参数:sourceString,要修剪的字符串

编辑:sourceString 是一个由字母数字字符、换行符和空格组成的字符串,例如

“ blabla - bla2

"

0 投票
1 回答
687 浏览

xml - 在 Web Harvest 中创建带有特殊字符的正则表达式

我正在使用开源网络抓取工具 Web Harvest (http://web-harvest.sourceforge.net/)。

我尝试使用的正则表达式具有“<”、“>”字符(因为我试图去除所有进入的 HTML 标记)。这会导致问题,因为元素的内容必须由格式良好的字符数据或标记组成。

我需要以某种方式逃避正则表达式,但不知道如何。

有任何想法吗?

0 投票
2 回答
18365 浏览

java - 网页抓取java初学者

我是 Java 新手,我想在网络抓取和解析数据方面做得很好

是否有任何与网页抓取相关的网站可以帮助我了解 htmcleaner、web-harvest、htmlparser 等 API 的工作原理?

我仍然不够精通 Java,无法查看他们的 Javadocs 并了解他们所有的方法是如何工作的,并且在 Web 上找不到对我有帮助的 Java 代码示例(教程)。

0 投票
1 回答
392 浏览

facebook-c#-sdk - 学习数据收集

我想建立一个网站来收集数据: *我朋友的 Facebook 状态 *其他网站

不幸的是,我不知道如何收集数据。有人可以推荐一本书\教程吗?如何接近这个领域?

0 投票
2 回答
2685 浏览

java - 有哪些好的 Java 库可以从网页中搜索和抓取数据。

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如,假设我有一个页面,例如:

“地址:”是关键,但我实际上是在尝试获得“123 My Street”,其中有一堆 html 标签和中间的空格。理想情况下,我想获得字符串“地址:”后面的 td 之间的值。似乎 JSoup 可以进行查找,但我没有看到如何进行偏移的好例子(我可能错过了)。是否有处理键/值的库?

我也有兴趣了解类似于 Kapow 提取浏览器的 UI 脚本的任何开源 (MIT/Apache) 计划。

谢谢。

0 投票
2 回答
146 浏览

jquery - 从一组网站中收集希伯来名字

我有以下网站(希伯来语): http ://www.daydeals.co.il/

它包含许多指向外部网站的链接。我想编写一个 jQuery 脚本,它将 1)打开所有链接 2)从所有包含文本“someText”的打开网站中收集元素 3)从(2)返回所有元素的集合

有人可以指导我如何做到这一点吗?

另一个问题:我尝试使用以下 jq 选择器: alert($("div:contains('אביב')").text());

但是,当我在任何浏览器中浏览它时,希伯来语变成了乱码。有什么办法可以解决这个问题吗?

提前致谢

0 投票
1 回答
120 浏览

pdf - 是否可以通过 GET 请求从 PDF 文档中检索单个页面?

我需要将数字存储库迁移到新平台,但无法访问旧平台,因此我不得不通过网络检索对象。

一些对象包含其他对象。对于这种类型的大多数对象,识别/检索组件及其元数据是一个简单的过程。但是对于某些 PDF 文件,所引用的组件似乎实际上是对单个文件中各个页面的引用,而不是单独的页面。

例如,http://content.wwu.edu/cdm4/document.php ?CISOROOT=/wfront&CISOPTR=2711给了我一个 4 页的对象。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允许我检索整个文档。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711检索一个 XML 文档,告诉我组件页面的标识符,但是当我尝试卷曲它们时,我只是得到零长度文档。但是在涉及非 PDF 文档时使用相同的方法,我会得到实际文件——这就是为什么我认为只检索单个页面的原因。

我如何检索单个页面,因为我必须将它们作为单个对象存储在新平台中?谢谢

0 投票
1 回答
1306 浏览

arrays - 在 web-harvest 中定义数组变量

我正在使用 Web-Harvest 从站点中提取一些数据。
站点获取一个名为的 POST 变量Code并根据它提供数据。
可用代码是从该站点的另一个页面收集的。
如何定义一个类似变量的数组,以将与代码相关的那些数据存储在类似变量的数组中,使我能够在主程序中通过循环检索它们?
我的意思是这样的:

0 投票
0 回答
322 浏览

java - Web 收获未能将格式错误的 html 转换为 xml

我在 web 收获(来自 java)中使用 xquery 处理器来解析一个 html 页面,该页面包含一个<div>元素内的无效标签,例如<div 3px="abc">. 例外是:

有没有快速清理 div 预处理的方法?或者这个问题的任何解决方法?