java - 解析以字符串形式找到的 HTML 转储的有效方法

Question

请处理这个琐碎的问题。它在stackoverflow上以零碎的形式提供。

我有一个字符串形式的网站的 HTML 转储。我想从它的特定标签中提取文本。

换句话说，我想模仿

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

我没有使用 Jsoup，因为我不希望它连接到网站（我有另一项服务，它以文本形式返回 html 转储）。我找到了用于将文本转换为 HTMLDocument 的HTMLEditorKit，但它似乎不太容易使用（如 Jsoup 或 HTMLParser），或者我无法获得它。

任何帮助都会很有用。

谢谢。

score 2 · Accepted Answer

如果您使用过 Jsoup 并且它仍然有效，您应该继续使用它。

Document doc = Jsoup.parse("<html>...");

应该做。

请参阅：API

1 回答 1