java中的JPedal库通常用于将pdf转换为XML或HTML。但是,我想知道我们是否可以从 HTML5 文档中提取数据并使用 JPedal 库 API 将其保存为 XML?有没有其他可能的替代方案?
另外,我正在尝试使用 Java 解析 HTML5 文档并将其存储在 XML 中。有没有什么好的解决方案可以找到特定的标签并从中呈现 XML?
请让我知道。谢谢你。
那里有许多 Java HTML 解析器,但我建议使用来自 validator.nu 的 HTML5 解析器,可从此处下载: http: //about.validator.nu/htmlparser/。
由 HTML5 的主要推动者之一,Mozilla 的 Henri Sivonen 编写使用 HTML5 解析器算法,您将找不到更可靠的 HTML 解析器,它创建了一个真正的 DOM,可以使用标准 XML 工具进行操作,并使用以下方法查询超链接XPath。有一些示例说明如何使用 XSLT 转换以及如何获取创建的 DOM 的 XML 序列化。