问题标签 [jsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
107824 浏览

java - 如何“扫描”网站(或页面)以获取信息,并将其带入我的程序?

好吧,我非常想弄清楚如何从网页中提取信息,并将其带入我的程序(在 Java 中)。

例如,如果我知道我想从中获取信息的确切页面,为了简单起见,百思买商品页面,我如何从该页面获取我需要的适当信息?喜欢标题,价格,描述?

这个过程甚至会被称为什么?我什至不知道要开始研究这个。

编辑:好的,我正在对 JSoup(BalusC 发布的那个)进行测试,但我不断收到此错误:

我确实有 Apache Commons

0 投票
2 回答
23494 浏览

java - 如何在 Android 中将字符串转换为 UTF-8?

我正在使用一个名为 Jsoup 的 HTML 解析器来加载和解析 HTML 文件。问题是我正在抓取的网页ISO-8859-1在 Android 使用UTF-8编码(?)时以字符集编码。这导致某些字符显示为问号。

所以现在我想我应该将字符串转换为 UTF-8 格式。

现在我在 Android SDK 中找到了这个名为CharsetEncoder的类,我想这对我有帮助。但是我不知道如何在实践中实现它,所以我想知道是否可以通过一个实际的例子来获得帮助。

更新:读取数据的代码(Jsoup

0 投票
3 回答
9885 浏览

java - Jsoup图像标签提取

我需要使用 jsoup 从此 html 中提取图像标签

我需要提取这个 img 标签的 src ...我正在使用这个代码我得到空值

0 投票
1 回答
1255 浏览

java - jsoup标签提取

如何从这个html中提取标签

如何使用 jsoup 提取此 html 代码中的 5 和 8....请帮助我

0 投票
1 回答
5988 浏览

java - jsoup标签提取问题


测试:示例
测试1:示例1

我如何从这个html标签中提取值示例和示例1..使用jsoup ..

0 投票
4 回答
2156 浏览

java - 外部库会使应用程序变慢吗?

我正在构建一个从网页中抓取信息的应用程序。为此,我选择使用名为Jsoup的 html 抓取工具,因为它使用起来非常简单。Jsoup 也依赖于 Apache Commons Lang 库。(它们总共构成 385kB )。所以 Jsoup 将用于下载页面并解析它。

我的问题是,如果使用这些简化库而不是使用 Android 内置库,是否会使我的应用程序变慢?(在下载数据和解析方面)。

我在想内部库会针对 Android 进行优化。

0 投票
3 回答
9412 浏览

java - 哪些包必须导入?

伙计们,在上面的程序中,在执行时我发现了这些错误。如何解决?我已经在我的文件夹位置下载了 Jsoup.jar 文件。我还应该做什么?

0 投票
4 回答
149 浏览

java - 仅识别有关新闻稿页面的链接

我的任务是找到给定链接的实际新闻稿链接。比如说http://www.apple.com/pr/

我的工具必须从上述 URL 中单独找到新闻稿链接,不包括在该站点中找到的其他广告链接、标签链接(或其他任何内容)。

开发了下面的程序,结果是给定网页中存在的所有链接。

如何修改以下程序以仅从给定 URL 中找到新闻稿链接?另外,我希望该程序具有通用性,以便它可以识别来自任何新闻稿 URL(如果给出)的新闻稿链接。

0 投票
3 回答
19111 浏览

java - 如何只解析 HTML 中的文本

如何使用 java 使用 jsoup 仅解析网页中的文本?

0 投票
6 回答
48204 浏览

java - 在 Java 中将 HTML 转换为纯文本

我需要将 HTML 转换为纯文本。我对格式的唯一要求是在纯文本中保留新行。新行不仅应该在 的情况下显示,<br>而且其他标签也应该显示,例如<tr/></p>也导致新行。

用于测试的示例 HTML 页面是:

请注意,这些只是随机 URL。

我已经尝试了这个 StackOverflow 问题的答案中提到的各种库(JSoup、Javax.swing、Apache utils),以将 HTML 转换为纯文本。

使用 JSoup 的示例:

HTMLEditorKit 示例: