1

MarkLogic 安装在 Windows 10 机器上。

我们正在使用 MarkLogic Content Pump (MLCP) 导入数据

它与

<?xml version="1.0" encoding="UTF-8"?>

导入非 UTF8 编码时显示错误,即

<?xml version="1.0" encoding="US-ASCII"?>

我查看了 MLCP 指南,发现 content_encoding 参数,但它不起作用,并且记录包含特殊字符的抛出错误,如 ´ δ、“ & 等等

错误 mapreduce.ContentWriter:XDMP-DOCENTITYREF:无效的实体引用“gamma”

我通过它如下

mlcp.bat -content_encoding "US-ASCII"

当我查看此文档时,它显示“仅支持 UTF-8”。

当我看到这个时,它说“选项值必须是你的 JVM 接受的字符集名称;”

所以我很困惑,不知道如何解决这个问题以及如何在 JVM 中设置字符集

4

1 回答 1

0

感谢 grtjn 的回复。

-xml_repair_level 完全工作,所有记录现在都已提交,没有失败的记录。

特殊字符(带 ;)以真实字符存储在 ML 中,如下所示

  • &λ - λ
  • Å - Å
  • &mu - μ

我希望从业务角度来看,这应该是可以接受的内容。

现在唯一的主要挑战是在数百万条 xml 记录中使用乱码进行测试。

感谢 grtjn 的帮助。

于 2019-03-11T11:56:02.807 回答