java - 使用 jpedal 从 html 中提取超链接？--java

Question

java中的JPedal库通常用于将pdf转换为XML或HTML。但是，我想知道我们是否可以从 HTML5 文档中提取数据并使用 JPedal 库 API 将其保存为 XML？有没有其他可能的替代方案？

另外，我正在尝试使用 Java 解析 HTML5 文档并将其存储在 XML 中。有没有什么好的解决方案可以找到特定的标签并从中呈现 XML？

请让我知道。谢谢你。

score 0 · Accepted Answer

那里有许多 Java HTML 解析器，但我建议使用来自 validator.nu 的 HTML5 解析器，可从此处下载： http: //about.validator.nu/htmlparser/。

由 HTML5 的主要推动者之一，Mozilla 的 Henri Sivonen 编写使用 HTML5 解析器算法，您将找不到更可靠的 HTML 解析器，它创建了一个真正的 DOM，可以使用标准 XML 工具进行操作，并使用以下方法查询超链接XPath。有一些示例说明如何使用 XSLT 转换以及如何获取创建的 DOM 的 XML 序列化。

java - 使用 jpedal 从 html 中提取超链接？--java

1 回答 1

Related

Reference