我已将 HTML 内容传递给字符串“Html_content”。我需要解析字符串“Html_content”并使用那里的ID选择几个DIV标签,例如“fullHeader”是DIV的ID,我需要选择“fullHeader”的div标签内的内容并将其存储为字符串。
我尝试了 JSOUP但我需要将收集到的 div 标签保存在 Document 中,但我需要将其保存为字符串,但使用 Jsoup 是不可能的,有没有其他选择?
我已将 HTML 内容传递给字符串“Html_content”。我需要解析字符串“Html_content”并使用那里的ID选择几个DIV标签,例如“fullHeader”是DIV的ID,我需要选择“fullHeader”的div标签内的内容并将其存储为字符串。
我尝试了 JSOUP但我需要将收集到的 div 标签保存在 Document 中,但我需要将其保存为字符串,但使用 Jsoup 是不可能的,有没有其他选择?
但我需要将其保存为字符串,但使用 Jsoup 是不可能的
错了,Jsoup 有这个Element#text()
方法。
String text = element.text(); // <div>foo<b>bar</b></div> will give "foobar"
// ...
或者,当您还想在字符串中包含 HTML 时,请使用Element.html()
or Element#outerHtml()
,具体取决于要求。
String html = element.html(); // <div>foo<b>bar</b></div> will give "foo<b>bar</b>"
// ...
或者
String html = element.outerHtml(); // <div>foo<b>bar</b></div> will give exact this string
// ...
JSoup 正是您所需要的。我的理解是,您需要将 HTML 元素以字符串形式返回给您,以便您可以进一步使用它们来创建另一个文档。
假设您从 HTML 中提取了Element 对象,例如ele 。
现在写
String htmlForEle = new Element(Tag.valueOf("div")).append(ele.clone()).remove().html();
ele 的 html 正是您正在寻找的。
如果您强制将 HTML 转换为 XML 语法,那么您可以使用 XPath、SAX、DOM 和其他 XML 工具来操作文档。