问题标签 [jsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
5957 浏览

java - 使用 Jsoup 构建基础程序

这里有一个非常基本的问题,构建/运行 Java 框架以使用 Jsoup:


我错过了什么?

0 投票
2 回答
12055 浏览

java - 使用 JSoup 在保留换行符的同时删除 HTML 实体

我一直在使用JSoup来解析歌词,到目前为止它一直很棒,但是遇到了问题。

我可以Node.html()用来返回所需节点的完整 HTML,它保留换行符,如下所示:

但是,如您所见,它有一个不幸的副作用,即保留 HTML 实体和标签。

但是,如果我使用Node.text(),我可以获得更好看的结果,没有标签和实体:

这有另一个不幸的副作用是删除换行符并压缩成一行。

<br />在调用之前简单地从节点替换会Node.text()产生相同的结果,并且该方法似乎将文本压缩到方法本身的单行上,而忽略了换行符。

是否有可能两全其美,并正确替换标签和实体以保留换行符,或者是否有另一种解码实体和删除标签而无需手动替换它们的方法或方式?

0 投票
2 回答
3625 浏览

android - Jsoup HTML 表单 Webview

我想将 HTML 表单加载到 webview 中,但是它对我不起作用,我想知道它是否可能?这是我的代码。谢谢

0 投票
2 回答
347 浏览

java - Jsoup:检查是否为
有身份证

我可以使用getElementsByTag("div")遍历文档中的所有 div 元素。

现在我想建立一个只有具有属性“id”的 div 元素的列表(即具有属性“class”的 div 元素不应该在列表中)。

直觉上,我正在考虑检查这样的事情:

我的方法完全正确吗?

是否有更优化的测试方法来测试“id”属性?(上面对 DOM 文档中的每个元素使用字符串比较)

0 投票
2 回答
1124 浏览

android - jsoup.connect/jsoup.parse 的进度

我在我的 android 应用程序中使用 Jsoup 来解析网页中的数据。我想显示进度

或者

怎么做?当进度改变时,是否有任何方法会自动调用,例如 webview。请告诉我如何完成任务。

0 投票
2 回答
42573 浏览

java - 如何使用jsoup从HTML解析表格

这是我必须从中提取值 5390.85,5428.15、5376.15、5413.85 的 HTML 源代码。我想用jsoup做到这一点。但我对 jsoup 比较陌生(今天我开始使用它)。那么我该怎么做呢?

我已经使用 jsoup 提取了网站的内容。但是如何提取我需要的值?提前致谢

0 投票
1 回答
1268 浏览

html - 使用 Jsoup 从网页中提取信息

我想使用 Jsoup 从 buy.com 页面中提取评论和评级信息。问题是我似乎无法弄清楚如何做到这一点,因为每条评论的 id 根据其数量而有所不同。例如,第 11 条评论看起来像这样:

<a id="CustomerReviews_customerReviews_ctl11_reviewIdAnchor" name="a352496">&nbsp;</a><br />

<span id="CustomerReviews_customerReviews_ctl11_ratingInfo"><span class="blueText"><b>5</b> of <b>5</b></span> <b>Great Product</b> 12/15/2010<br /></span>

<span id="CustomerReviews_customerReviews_ctl11_reviewerInfo"><b>A customer</b> from x<br></span>

<span id="CustomerReviews_customerReviews_ctl11_reviewContent">content</span>

而评论编号 12 的 ID 为:ctl12 如何提取页面中所有评论的评论内容和评分?

0 投票
1 回答
1218 浏览

java - 如何使用 jsoup 从网页中的所有段落中提取完整的 URL

如何使用 jsoup 从网页上的所有段落中提取完整的 URL?我只能提取相对 URL。

预期的: http://fr.wikipedia.org/wiki/Husni_al-Zaim

实际的: /Husni_al-Zaim

我的代码:

0 投票
3 回答
7109 浏览

java - 防止 Jsoup 丢弃多余的空格

我正在使用 Jsoup 清理表单中的用户输入。有问题的表单包含一个<textarea>需要纯文本的表单。提交表单后,我用Jsoup.clean(textareaContents);清理输入 但是,由于 html 会忽略多余的空格,Jsoup.clean()因此会从输入中删除有价值的空格字符。

例如,如果有人在 中输入了几行文本textarea

之后Jsoup.clean(),您将拥有:

你怎么能Jsoup.clean()保留空白?我知道它是为解析 html 而设计的,这不是 html,所以有更好的选择吗?

0 投票
1 回答
558 浏览

java - Get encoded html content only from url in java

Is there a library in JAVA where I can encode HTML, but only content?

I have like

and I only want

instead of

I need this library to encode an entire HTML. I have tried library JSoup but it has bugs when handling some objects.

Thanks