问题标签 [webharvest]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

72 问题

0 投票

2 回答

689 浏览

web-scraping - 为关键字的前 10 个搜索链接抓取谷歌搜索页面

我想从搜索关键字的谷歌页面中抓取前 10 个搜索链接。

我正在使用网络收获。计划刮掉href链接并使用一些过滤掉前10名

属性模式？方法是否正确，目前不起作用。还有其他简单的方法吗？:(

web-scraping webharvest

2010-09-02T12:07:48.003

0 投票

1 回答

1240 浏览

java - WebHarvest 中的 Xquery 错误

我正在使用WebHarvest来解析一些 html。我在 WebHarvest 的 ide 中的以下函数中收到以下错误，我不明白出了什么问题。我正在尝试创建一个修剪字符串的函数。

错误：

执行 XQuery 表达式时出错（Xquery=[declare variable $xqsource external; let $result := normalize-space($xqsource) return $result]）！

Edit2：日志报告以下 SAX 错误：

[...]原因：org.xml.sax.SAXParseException：prolog 中不允许内容

我不明白在这种情况下这意味着什么。

函数的参数：sourceString，要修剪的字符串

编辑：sourceString 是一个由字母数字字符、换行符和空格组成的字符串，例如

“ blabla - bla2

"

2010-12-11T22:49:28.223

0 投票

1 回答

687 浏览

xml - 在 Web Harvest 中创建带有特殊字符的正则表达式

我正在使用开源网络抓取工具 Web Harvest (http://web-harvest.sourceforge.net/)。

我尝试使用的正则表达式具有“<”、“>”字符（因为我试图去除所有进入的 HTML 标记）。这会导致问题，因为元素的内容必须由格式良好的字符数据或标记组成。

我需要以某种方式逃避正则表达式，但不知道如何。

有任何想法吗？

xml regex webharvest

2011-02-10T20:15:24.197

0 投票

2 回答

18365 浏览

java - 网页抓取java初学者

我是 Java 新手，我想在网络抓取和解析数据方面做得很好

是否有任何与网页抓取相关的网站可以帮助我了解 htmcleaner、web-harvest、htmlparser 等 API 的工作原理？

我仍然不够精通 Java，无法查看他们的 Javadocs 并了解他们所有的方法是如何工作的，并且在 Web 上找不到对我有帮助的 Java 代码示例（教程）。

java web-scraping html-parsing webharvest htmlcleaner

2011-06-22T20:47:22.600

0 投票

1 回答

392 浏览

facebook-c#-sdk - 学习数据收集

我想建立一个网站来收集数据： *我朋友的 Facebook 状态 *其他网站

不幸的是，我不知道如何收集数据。有人可以推荐一本书\教程吗？如何接近这个领域？

facebook-c#-sdk webharvest data-harvest

2011-07-22T16:46:19.253

0 投票

2 回答

2685 浏览

java - 有哪些好的 Java 库可以从网页中搜索和抓取数据。

有哪些好的开源 Java 库可以从网页中搜索和抓取数据并将其粘贴到数据库中。例如，假设我有一个页面，例如：

“地址：”是关键，但我实际上是在尝试获得“123 My Street”，其中有一堆 html 标签和中间的空格。理想情况下，我想获得字符串“地址：”后面的 td 之间的值。似乎 JSoup 可以进行查找，但我没有看到如何进行偏移的好例子（我可能错过了）。是否有处理键/值的库？

我也有兴趣了解类似于 Kapow 提取浏览器的 UI 脚本的任何开源 (MIT/Apache) 计划。

谢谢。

java web-crawler web-scraping jsoup webharvest

2011-07-29T01:15:07.643

0 投票

2 回答

146 浏览

jquery - 从一组网站中收集希伯来名字

我有以下网站（希伯来语）： http ://www.daydeals.co.il/

它包含许多指向外部网站的链接。我想编写一个 jQuery 脚本，它将 1）打开所有链接 2）从所有包含文本“someText”的打开网站中收集元素 3）从（2）返回所有元素的集合

有人可以指导我如何做到这一点吗？

另一个问题：我尝试使用以下 jq 选择器： alert($("div:contains('אביב')").text());

但是，当我在任何浏览器中浏览它时，希伯来语变成了乱码。有什么办法可以解决这个问题吗？

提前致谢

jquery hebrew webharvest

2011-08-26T15:54:20.490

0 投票

1 回答

120 浏览

pdf - 是否可以通过 GET 请求从 PDF 文档中检索单个页面？

我需要将数字存储库迁移到新平台，但无法访问旧平台，因此我不得不通过网络检索对象。

一些对象包含其他对象。对于这种类型的大多数对象，识别/检索组件及其元数据是一个简单的过程。但是对于某些 PDF 文件，所引用的组件似乎实际上是对单个文件中各个页面的引用，而不是单独的页面。

例如，http://content.wwu.edu/cdm4/document.php ?CISOROOT=/wfront&CISOPTR=2711给了我一个 4 页的对象。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=print允许我检索整个文档。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711检索一个 XML 文档，告诉我组件页面的标识符，但是当我尝试卷曲它们时，我只是得到零长度文档。但是在涉及非 PDF 文档时使用相同的方法，我会得到实际文件——这就是为什么我认为只检索单个页面的原因。

我如何检索单个页面，因为我必须将它们作为单个对象存储在新平台中？谢谢

pdf curl webharvest

2011-10-11T17:53:37.257

0 投票

1 回答

1306 浏览

arrays - 在 web-harvest 中定义数组变量

我正在使用 Web-Harvest 从站点中提取一些数据。
站点获取一个名为的 POST 变量Code并根据它提供数据。
可用代码是从该站点的另一个页面收集的。
如何定义一个类似变量的数组，以将与代码相关的那些数据存储在类似变量的数组中，使我能够在主程序中通过循环检索它们？
我的意思是这样的：

arrays variables associative-array webharvest

2011-11-02T11:18:38.133

0 投票

0 回答

322 浏览

java - Web 收获未能将格式错误的 html 转换为 xml

我在 web 收获（来自 java）中使用 xquery 处理器来解析一个 html 页面，该页面包含一个<div>元素内的无效标签，例如<div 3px="abc">. 例外是：

有没有快速清理 div 预处理的方法？或者这个问题的任何解决方法？

java webharvest

2011-12-18T15:50:42.260

1 2 3 4 5 6 7 8 9 10

问题标签 [webharvest]

Reference