问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
760 浏览

java - how to save web-harvest data to database

I am scrapping the data using web-harvest tool and i am getting the required data i.e. name and price of the product.

here is my config file.

now i am trying to move this name and price information to the mysql database table which contains two columns name and price. i got the information that we have to use database tag. but not getting information how to use that.

could you please assist me how can configure that in my config file.

Thanks in advance.

  • Sahiti
0 投票
2 回答
947 浏览

java - 尝试使用 Web Harvest 从网站中提取 URL

我正在尝试提取没有站点地图的网站的 URL。我正在使用Web Harvest 工具

我对 Java 或编码一无所知。有人可以帮我使用这个工具。

我希望它在特定网站(例如 example.com)上运行并从该网站提取每个 URL。

0 投票
2 回答
984 浏览

webharvest - HTTP 执行期间的 IO 错误

我使用 web-harvest 5 个月,并尝试使用以下语法获取 web 的内容:

我得到了内容,但最近我收到了这个错误:

我把它绑在另一台电脑上,它工作正常,但在我的电脑上我得到了这个错误。

0 投票
1 回答
1050 浏览

xml - Web-Harvest: grabbing multiple url's from a list

What I'm trying is to get multiple webpages from a predefined list. Here is the code:

and the error is "Variable assignment: codes: Can't assign org.webharvest.runtime.variables.ListVariable to java.lang.String"

What am I missing here?

0 投票
1 回答
116 浏览

java - 如何剥离从网络收获中获得的部分文本

我是 webharvest 的新手,正在使用它从网站获取文章数据,使用以下语句:

这是我从上述声明中得到的数据:

我的问题是,是否可以使用配置删除“知名人士”之后的全部内容。有可能这样做吗?如果可能,请让我知道如何。谢谢。

编辑: 所需的输出:

0 投票
1 回答
460 浏览

java - 如何从网络收获中的字符串中减去子字符串

我是 webharvest 的新手,正在使用它从网站获取文章数据,使用以下语句:

这是我从上述声明中得到的数据:

我的问题是,是否可以在上面的示例中从另一个字符串中减去一个字符串:内容中的“知名人士”。

有可能这样做吗?如果可能,请让我知道如何。谢谢。有什么我可以这样做的:

contains是一个示例函数名称,用于确定一个字符串是另一个的子字符串,减号是一个示例函数名称,用于从另一个中删除子字符串

所需的输出:

0 投票
1 回答
193 浏览

javascript - 如何在 webharvest 中不使用 xpath 选择某些数据

我正在使用 webharvest 和 xquery 从网站获取数据。

我有 2 个带有以下数据的 xquery 变量

$text

$contact

(上面的文字只是一个例子。)

我想要的是删除$contact到目前为止$text我想出了以下代码的内容:

它不工作。我不知道我哪里出错了。请让我知道这样做的正确方法。

0 投票
3 回答
1875 浏览

php - PHP 中的 Web 抓取 - 使用某些 URL,但使用其他 URL 失败

我正在使用 curl 为linkedin 个人资料页面进行网络抓取。如果我们尝试从这个 ( http://in.linkedin.com/in/ratneshdwivedi ) 公开的 URL 中提取数据,它就可以工作。当我登录到linkedin并试图从这个URL(http://www.linkedin.com/profile/view?id=77597832&locale=en_US&trk=tyah2&trkInfo=tas%3Aravi%20kant%20mishra%2Cidx%3A1- 1-1 ) 它不工作,而是返回空白数据。

以下是我的源代码:

提前致谢

0 投票
1 回答
695 浏览

javascript - 使用 web-harvest 在 HTML 文件中抓取 javascript 变量

我有一个问题(也许是假的)。假设我在一个带有一堆其他东西(其他脚本标签和 html 标签)的 html 页面中有以下代码片段:

而且我只想抓取 mapData 变量的内容(在上面的示例中以粗体显示)。

我正在努力使用我需要在我的 xml 配置文件中使用的 xpath 表达式来仅获取 mapData 变量内容。由于我是 XPath/Web-harvest 的新手,我不确定该解决方案是使用 xpath 表达式还是其他方法。

一直以来,我的抓取都是基于 HTML 标签和其中的 id 属性的名称,但现在我在文件中只有很多脚本标签,我需要获取 mapData 变量。

有什么想法吗?

0 投票
1 回答
140 浏览

xml - 变量作为 xml 输出的标记

我正在使用工具网络收获从网站上抓取数据。我使用 xquery 将数据输出为 xml 文件。我需要使用一个变量标签,为此我尝试使用以下内容:

这行不通。我还尝试将 {} 放在<{concat("detail", $i)}> 任何想法如何做到这一点?还是无法实现或不可取?