我正在使用 javax.xml.transform.Transformer 获取 HTML 内容并解析为 XML 文档(我正在使用 Crouton/TagSoup 组合来执行此操作)。不过,我认为这并不是太重要,因为这是我的问题:
我正在转储 Transformer.transform() 进程的输出,并看到在输出中,诸如此类的东西©
正在转换为它们的实际符号,在这种情况下是版权符号。
最终,此内容将被重新保存为 HTML 文件,但它不会©
显示在文件中,而是放置不应该使用给定 HTML 标准的特殊字符。
有什么方法可以让转换器忽略已经编码的 HTML 字符而不是转换为它们的实际符号?