问题标签 [webharvest]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
608 浏览

java - 使用 Java 获取响应标头,编码问题

我正在使用 Webharvest 从网站下载文件并取其原始名称。

我正在使用的 Java 代码是:

webharvest 的结果是:

附件; filename="Resoluci�n sobre Mesas de Contrataci�n.pdf"

我不能让它接受这封信

Ø

在将标头 Content-Disposition 的值转换为变量 attachName 后,我也尝试对其进行解码,但没有运气:

我能够确定响应字符集是:ISO-8859-1

PS 当我在 Firefox Firebug 中看到标题时 - 值没问题:Content-Disposition

附件; filename="Resolución sobre Mesas de Contratación.pdf"

0 投票
1 回答
96 浏览

javascript - 使用 Jsoup Java 从 Wep Pages 获取数据

这是我在这个网站上的第一个问题,希望能停留更长时间 :=) 我已经阅读了很多文章并研究了许多关于使用 Jsoup 从网站获取特定数据的示例。已经,我可以设法获得一些值,但我无法成功我的目标是从某个 Web 服务器读取警报状态,以便我可以收集它们并发送给技术人员。不幸的是,我不知道等级制度。如果有人能告诉我如何阅读以红色方块为标题的值。我希望我能清楚地解释我需要什么。提前致谢

1

0 投票
0 回答
99 浏览

javascript - 从 JavaScript 函数调用 webharvest 函数

我创建了一个 webharvest 功能。我可以使用 webharvest 代码调用该函数。我的挑战是,需要从 JavaScript 函数调用该 webharvest 函数。可能吗?例如,考虑一下:

网络收获方法

JavaScript 方法

0 投票
0 回答
193 浏览

http - http webharvest 标记不适用于 http-param 参数

我正在 webharvest 中尝试以下代码

我收到错误消息,指出处理您的请求时出错。

错误截图是错误截图

但是当我用所有参数定义 url 时,我得到了预期的结果

为什么我们会有这种不同的行为?

谢谢 !

0 投票
2 回答
1657 浏览

angular - Angular 4如何将网页内容请求为json对象

我正在尝试通过 http 调用请求网页并收集数据。

我可以使用 chrome 插件避免跨域,但是当我发出请求时,响应始终为“null”。

如何在我的 Angular 应用程序中获取 html 页面作为 json 对象?

0 投票
0 回答
326 浏览

r - 使用 rvest 进行网络抓取 - 登录无效 - flightradar24.com

我正在尝试使用 rvest 从 www.flightradar24.com 收集数据。我有订阅,所以我想登录并访问更多数据。这是我用来登录的代码(我使用的是我的电子邮件和密码,而不是“电子邮件”和“密码”):

我收到以下消息:

我想检查这是否真的有效,所以我正在尝试这个:

这是我得到的信息:

如您所见,它将转到https://www.flightradar24.com/premium(您可以在其中比较不同订阅的网站)而不是https://www.flightradar24.com/account(您登录后的帐户页面)。

我尝试使用html_table从该网站https://www.flightradar24.com/data/aircraft/ln-lnc获取数据,但它仅捕获基本订阅中包含的数据,因此这也意味着我没有成功登录。

任何帮助将不胜感激。

0 投票
1 回答
166 浏览

rvest - Rvest 返回零列表

我想使用 rvest 从网上下载论文的所有链接/标题。我使用了以下脚本,但它不是列表为零。有什么建议么?

图书馆(rvest)

1. 下载 HTML 并使用 read_html() 将其转换为 XML 文件

论文 <- read_html(" https://papers.ssrn.com/sol3/JELJOUR_Results.cfm?npage=1&form_name=journalBrowse&journal_id=1475407&Network=no&lim=false ")

2. 使用 html_nodes() 提取特定节点

标题 <- html_nodes(论文,“span.optClickTitle”)

0 投票
1 回答
4244 浏览

java - 如何修复 groovy.lang.MissingMethodException:没有方法签名:java.util.ArrayList.get() 适用于参数类型:() 值:[]

我试图在 groovy 中使用这种方法,

这是我的“selectGroupedDocs”方法的java代码部分,

当我运行它时,我收到以下错误,

我究竟做错了什么?

0 投票
1 回答
63 浏览

java - Gson.toJson() 方法返回嵌入“数据”的字符串

我正在研究 Workfusion,它是自动化工具之一,它由 selenium、java 和 Web 收获技术组成。下面是我的代码的片段。

在地图中,键是“运送到 ctry cd”,值是“AT”,但在转换为 JSON 字符串后,它给出如下。我不需要这个数据字我需要正常的 Json 值。

0 投票
0 回答
34 浏览

webharvest - 使用 Web-Harvest 从表中抓取数据

所以我是 Web-Harvest 的新手,我正在努力理解它,我有一个表格,其中包含以下 HTML 元素:

我通过循环获取表的所有元素:

问题是我想将列表中的所有产品保存在一个 var-def 中,我想知道循环内部的逻辑是如何做到的