java - 如何从 java 中的 htmlparser 生成的已解析标记节点构建新的 html？

Question

我想编写一个将.html转换为pdf的java代码。我使用adobe的itext api进行html到pdf的转换。但是当我将错误的html文件作为输入时，这种转换失败。（Html标签没有正确结束）因此我使用了Htmlcleaner清理坏 html 但无法获得可以重建新 html 的代码的解析器。有人知道如何从解析的 html 标签节点构建新的 html 吗？

score 0 · Accepted Answer

HtmlCleaner 带有一组序列化程序，您可以使用这些序列化程序，例如：

    final HtmlCleaner cleaner = new HtmlCleaner();
    final CleanerProperties properties = cleaner.getProperties();
    final Serializer serializer = new SimpleHtmlSerializer(properties);

    TagNode node = cleaner.clean("hello world");
    StringWriter writer = new StringWriter();
    serializer.write(node, writer, "UTF-8");

    System.out.println(writer.toString());

java - 如何从 java 中的 htmlparser 生成的已解析标记节点构建新的 html？

1 回答 1

Related

Reference