0

请处理这个琐碎的问题。它在stackoverflow上以零碎的形式提供。

我有一个字符串形式的网站的 HTML 转储。我想从它的特定标签中提取文本。

换句话说,我想模仿

Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");

我没有使用 Jsoup,因为我不希望它连接到网站(我有另一项服务,它以文本形式返回 html 转储)。我找到了用于将文本转换为 HTMLDocument 的HTMLEditorKit,但它似乎不太容易使用(如 Jsoup 或 HTMLParser),或者我无法获得它。

任何帮助都会很有用。

谢谢。

4

1 回答 1

2

如果您使用过 Jsoup 并且它仍然有效,您应该继续使用它。

Document doc = Jsoup.parse("<html>...");

应该做。

请参阅:API

于 2012-04-13T06:47:09.093 回答