我正在使用 Saxon & XSLT 来转换我无法控制的 HTML 文档。
这些文档可能包含真正应该编码的字符,例如
™
而不是编码的
™
就目前而言,Saxon 在转换期间从HTMLEmitter抛出以下异常:
else if (c >= 127 && c < 160) {
// these control characters are illegal in HTML
DynamicError err = new DynamicError(
"Illegal HTML character: decimal " + (int) c);
err.setErrorCode("SERE0014");
throw err;
无论如何要更宽松,并告诉 Saxon 忽略并让这些字符原样通过 - 或者 - 我如何将 Saxon 配置为使用 XMLEmitter 而不是 HTMLEmitter?