我有一个 XML 文件,它是数据库的输出。我正在使用 Java SAX 解析器来解析 XML 并以不同的格式输出它。XML 包含一些无效字符,解析器抛出错误,例如“无效的 Unicode 字符 (0x5)”
除了逐行预处理文件并替换它们之外,有没有一种很好的方法可以去除所有这些字符?到目前为止,我遇到了 3 个不同的无效字符(0x5、0x6 和 0x7)。这是一个约 4gb 的数据库转储,我们将对其进行多次处理,因此每次我们获得新的转储以在其上运行预处理器时都必须额外等待 30 分钟,这将是一件痛苦的事情,这不是我第一次遇到这个问题。