问题标签 [webharvest]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Java 获取响应标头,编码问题
我正在使用 Webharvest 从网站下载文件并取其原始名称。
我正在使用的 Java 代码是:
webharvest 的结果是:
附件; filename="Resoluci�n sobre Mesas de Contrataci�n.pdf"
我不能让它接受这封信
Ø
在将标头 Content-Disposition 的值转换为变量 attachName 后,我也尝试对其进行解码,但没有运气:
我能够确定响应字符集是:ISO-8859-1
PS 当我在 Firefox Firebug 中看到标题时 - 值没问题:Content-Disposition
附件; filename="Resolución sobre Mesas de Contratación.pdf"
javascript - 使用 Jsoup Java 从 Wep Pages 获取数据
这是我在这个网站上的第一个问题,希望能停留更长时间 :=) 我已经阅读了很多文章并研究了许多关于使用 Jsoup 从网站获取特定数据的示例。已经,我可以设法获得一些值,但我无法成功我的目标是从某个 Web 服务器读取警报状态,以便我可以收集它们并发送给技术人员。不幸的是,我不知道等级制度。如果有人能告诉我如何阅读以红色方块为标题的值。我希望我能清楚地解释我需要什么。提前致谢
javascript - 从 JavaScript 函数调用 webharvest 函数
我创建了一个 webharvest 功能。我可以使用 webharvest 代码调用该函数。我的挑战是,需要从 JavaScript 函数调用该 webharvest 函数。可能吗?例如,考虑一下:
网络收获方法
JavaScript 方法
http - http webharvest 标记不适用于 http-param 参数
我正在 webharvest 中尝试以下代码
我收到错误消息,指出处理您的请求时出错。
错误截图是错误截图
但是当我用所有参数定义 url 时,我得到了预期的结果
为什么我们会有这种不同的行为?
谢谢 !
angular - Angular 4如何将网页内容请求为json对象
我正在尝试通过 http 调用请求网页并收集数据。
我可以使用 chrome 插件避免跨域,但是当我发出请求时,响应始终为“null”。
如何在我的 Angular 应用程序中获取 html 页面作为 json 对象?
r - 使用 rvest 进行网络抓取 - 登录无效 - flightradar24.com
我正在尝试使用 rvest 从 www.flightradar24.com 收集数据。我有订阅,所以我想登录并访问更多数据。这是我用来登录的代码(我使用的是我的电子邮件和密码,而不是“电子邮件”和“密码”):
我收到以下消息:
我想检查这是否真的有效,所以我正在尝试这个:
这是我得到的信息:
如您所见,它将转到https://www.flightradar24.com/premium(您可以在其中比较不同订阅的网站)而不是https://www.flightradar24.com/account(您登录后的帐户页面)。
我尝试使用html_table从该网站https://www.flightradar24.com/data/aircraft/ln-lnc获取数据,但它仅捕获基本订阅中包含的数据,因此这也意味着我没有成功登录。
任何帮助将不胜感激。
rvest - Rvest 返回零列表
我想使用 rvest 从网上下载论文的所有链接/标题。我使用了以下脚本,但它不是列表为零。有什么建议么?
图书馆(rvest)
1. 下载 HTML 并使用 read_html() 将其转换为 XML 文件
论文 <- read_html(" https://papers.ssrn.com/sol3/JELJOUR_Results.cfm?npage=1&form_name=journalBrowse&journal_id=1475407&Network=no&lim=false ")
2. 使用 html_nodes() 提取特定节点
标题 <- html_nodes(论文,“span.optClickTitle”)
java - 如何修复 groovy.lang.MissingMethodException:没有方法签名:java.util.ArrayList.get() 适用于参数类型:() 值:[]
我试图在 groovy 中使用这种方法,
这是我的“selectGroupedDocs”方法的java代码部分,
当我运行它时,我收到以下错误,
我究竟做错了什么?
java - Gson.toJson() 方法返回嵌入“数据”的字符串
我正在研究 Workfusion,它是自动化工具之一,它由 selenium、java 和 Web 收获技术组成。下面是我的代码的片段。
在地图中,键是“运送到 ctry cd”,值是“AT”,但在转换为 JSON 字符串后,它给出如下。我不需要这个数据字我需要正常的 Json 值。
webharvest - 使用 Web-Harvest 从表中抓取数据
所以我是 Web-Harvest 的新手,我正在努力理解它,我有一个表格,其中包含以下 HTML 元素:
我通过循环获取表的所有元素:
问题是我想将列表中的所有产品保存在一个 var-def 中,我想知道循环内部的逻辑是如何做到的