问题标签 [jaunt-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
83 浏览

java - 寻找正确表格的问题

我正在尝试使用 Jaunt ( https://ravit.is.fi/hevoset/1 ) 抓取一个网站,但在找到正确的表格元素来解析此表格时遇到问题(红色:https://i. imgur.com/JWNByHR.png )

从 html 中,我假设正确的元素是 < table border=\"0\" cellpadding=\"3\" cellspacing=\"1\"> 但标记为绿色的表格也使用相同的元素,所以会是什么“选择”正确表格的方法?尝试了很多东西都无济于事,但由于我对 java、html 和一般编码都很陌生,我很可能错过了一些明显的东西

另外,我尝试将另一个表中的数据放到 xls 表中,但所有内容都转到同一个单元格,所以你需要做什么,它看起来像这样:https ://i.imgur.com/2TF4mO4.png ?

先感谢您

0 投票
1 回答
242 浏览

java - java - 如何在java中使用Jaunt或Jsoup或HtmlUnit登录linkedIn?

我可以通过 HTTP 链接登录。但 LinkedIn 使用 HTTPS。这是通过 HTTPS 使用 Jaunt 或 Jsoup 登录 LinkedIn 的主要问题。我该如何处理?

0 投票
1 回答
604 浏览

java - 如何从 Java Web 抓取 API 获取数据?

我正在尝试从以下 url 获取表数据:

从此 URL 获取数据

我在 jaunt API 的帮助下编写了这段代码

但它没有用。

然后我尝试了另一个 APIhtmlunit并写了下面的代码

但这也不给结果。

有人可以帮助如何在单个会话中从上述 url 和其他 Anchor url 获取数据吗?

0 投票
0 回答
36 浏览

java - 代理不起作用,当我使用 Jaunt 库在 Java 中以编程方式设置它时

我有一个基于联合库的简单抓取程序,需要以编程方式设置和更改代理。

但它不起作用。没有错误,没有代理应用,响应正常但没有代理。这可能是因为Windows吗?我有 10 个并且在启动时没有请求权限,与许多程序相比很奇怪。

0 投票
0 回答
50 浏览

selenium - 使用 Html 单元或 Selenium 有没有办法使用谷歌反向地理编码

我尝试了 jsoup、html 单元、selenium。但我没有看到反向地理编码的脚本形式。这怎么可能?我可以使用这个脚本吗? https://developers.google.com/maps/documentation/geocoding/intro

0 投票
2 回答
48 浏览

java - .contains() 问题/看起来不起作用

我正在使用网络抓取工具,但我无法解决连续第二天遇到的问题。

这种方法的问题是当机器人应该访问网站时,收集所有 URL,并将其中尚未访问的 URL 添加到 List< String> "toVisit"

有问题的代码:

但是,if 语句没有过滤(或以我没有发现的方式过滤)url,我不知道为什么。

我试过删除“!” 在语句中创建一个 else 部分并粘贴 toVisit.add(x) 那里,但它没有帮助。

当我打印每个网址时,机器人会访问相同的网址两次甚至五次。

编辑(访问定义)

EDIT2(整个代码)

0 投票
1 回答
70 浏览

java - NullPointerException - 我不知道在哪里

抱歉扩展 NullPointerException 洪水:D

我已经阅读了大量关于 NullPointerException 的问题,但我无法弄清楚我的代码中哪里有问题。

有问题的行:

我试过 String x = userAgent.doc.innerHTML(); 并在下一行使用条件,但仍然存在:原因:java.lang.NullPointerException:尝试在空对象引用上调用虚拟方法'java.lang.String com.jaunt.Document.innerHTML()'

请知道我做错了什么吗?

周边代码:

非常感谢您的建议!:)

0 投票
0 回答
117 浏览

java - orbot 作为代理与 jaunt web-scraping

我正在开发应该访问网站并从那里检索一些数据的应用程序(android)。我认为使用 tor 会很好,所以我不会留下太多关于我自己的信息。

我已经完成了抓取部分,一切正常。问题是,我无法让代理访问互联网。我想使用 Orbot 作为代理。我总是收到 405 错误和文本:“这是一个 http 连接隧道,而不是一个完整的 http 代理,您似乎已将浏览器配置为将此 Tor 端口用作 http 代理这是不正确的:此端口配置为连接隧道,不是http代理。请相应地配置您的客户端。您也可以使用https;然后客户端应该自动使用http连接"

代码:

我试过了

而不是之前代码中的两行中间行以及其他一些可能不聪明的东西(:并且没有任何帮助。

从有关连接隧道和代理的错误文本中,我认为问题出在网络中,但尽管我搜索了它,但我无法修复它。也许在 Orbot 的设置中?我的问题是,请问我错过了什么?:)