import - MarkLogic 内容泵，content_encoding encoding="US-ASCII"？

Question

MarkLogic 安装在 Windows 10 机器上。

我们正在使用 MarkLogic Content Pump (MLCP) 导入数据

它与

<?xml version="1.0" encoding="UTF-8"?>

导入非 UTF8 编码时显示错误，即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了 MLCP 指南，发现 content_encoding 参数，但它不起作用，并且记录包含特殊字符的抛出错误，如 ´ δ、“ & 等等

错误 mapreduce.ContentWriter：XDMP-DOCENTITYREF：无效的实体引用“gamma”

我通过它如下

mlcp.bat -content_encoding "US-ASCII"

当我查看此文档时，它显示“仅支持 UTF-8”。

当我看到这个时，它说“选项值必须是你的 JVM 接受的字符集名称；”

所以我很困惑，不知道如何解决这个问题以及如何在 JVM 中设置字符集

score 0 · Accepted Answer

感谢 grtjn 的回复。

-xml_repair_level 完全工作，所有记录现在都已提交，没有失败的记录。

特殊字符（带 ;）以真实字符存储在 ML 中，如下所示

我希望从业务角度来看，这应该是可以接受的内容。

现在唯一的主要挑战是在数百万条 xml 记录中使用乱码进行测试。

感谢 grtjn 的帮助。

1 回答 1