请处理这个琐碎的问题。它在stackoverflow上以零碎的形式提供。
我有一个字符串形式的网站的 HTML 转储。我想从它的特定标签中提取文本。
换句话说,我想模仿
Document doc = Jsoup.connect(url).userAgent("Mozilla").get();
Elements links = doc.getElementsByTag("cite");
我没有使用 Jsoup,因为我不希望它连接到网站(我有另一项服务,它以文本形式返回 html 转储)。我找到了用于将文本转换为 HTMLDocument 的HTMLEditorKit,但它似乎不太容易使用(如 Jsoup 或 HTMLParser),或者我无法获得它。
任何帮助都会很有用。
谢谢。