0

在我的 Grails 应用程序中,我使用 Groovy 的XmlParser来解析 XML 文件。我的 XML 文件中的一个属性的值是一个字符串,它等于一个字符十六进制代码。我想将该字符串保存在我的数据库中:

Ñ

不幸的是,属性方法返回Ñ字符,而实际存储在数据库中的是c391. 当该字段被读回时,我还会得到不想要的Ñ字符。

如何将十六进制代码作为字符串存储在我的数据库中,并确保它也作为十六进制代码被读回?

更新#1:

这对我来说是个问题的原因是,一旦我将 XML 文件读入我的数据库,我必须能够完全按原样重建它。另一个问题是有问题的字段并不总是字符十六进制代码。它可能只是一些任意字符串。

更新#2:

我想字符如何存储在数据库中并不重要,只要我能以扩展的十六进制代码格式将其写回即可。我正在使用 Groovy MarkupBuilder从数据库中重建我的 XML 文件,但我不清楚为什么默认情况下不会发生这种情况。

更新#3:

我覆盖getTableTypeString了我的自定义 MySQL 方言,这似乎对某些事情有所帮助。至少现在我传递给 MySQL 的值是存储在数据库中的值。

class CustomMySQL5InnoDBDialect extends MySQL5InnoDBDialect {   
    @Override
    public String getTableTypeString() {
        return " ENGINE=InnoDB DEFAULT CHARSET=utf8"
    }
}

我还创建了自己的groovy.util.XmlParser版本。我的版本几乎与我更改groovy.util.XmlParser的方法完全相同:startElement

String value = list.getValue(i)

对此:

def value = list.fAttributes.fAttributes[i].nonNormalizedValue
if(value ==~ /&#x([0-9A-F]+?);/) {
    value = list.fAttributes.fAttributes[i].nonNormalizedValue
}

这允许将十六进制代码元素的准确文本存储在数据库中。

现在有两个新问题,可能三个。

  1. 使用存储在数据库中的确切值重新创建文件。到目前为止,我一直在使用MarkupBuilder,但这是对 & 符号进行额外编码,导致值Ñ被写出,因为Ñ 我可能可以通过MarkupBuilder手动放弃和构建我的 XML 字符串来解决这个问题,但我宁愿不这样做。

  2. 使用 Saxon-HE 9.4 处理器在 XML 文件上运行 XSLT 转换会导致某些十六进制代码值ÿ更改为类似ÿ的内容,而其他类似内容™则保持不变。

  3. 我不确定这是否会成为问题,但是当我重新创建文件时,我希望它处于ANSI编码状态,因为这是用于原始文件的编码。

4

2 回答 2

0

我的 XML 文件中的一个属性的值是一个等于字符十六进制代码的字符串

不,不是。原始 XML 中属性值的表示是十六进制字符引用,但属性是字符 Ñ。有一些方法可以配置一些 XML 解析器以避免在解析期间扩展命名实体引用,但它们必须按照 XML 规范扩展数字字符引用。

您还没有说为什么存储真实字符值是一个问题。如果它与将值呈现给浏览器有关,那么可以通过.encodeAsHTML()在输出时使用来处理。如果您需要将值保存到另一个 XML 文件,则使用 XML API 执行此操作,它将为您处理编码问题,用实体或字符引用替换字符以保持结果格式正确(在Ñ 的情况下,无论如何都不需要转义,除非您使用不寻常的字符集编写 XML)。

在 Groovy 的 MarkupBuilder 的特定情况下,您可以暂时退出 XML 模式并使用 将手动构建的标记直接写入输出流mkp.yieldUnescaped,这样您就可以在构建器通常不会打扰的地方输出字符引用。

于 2013-09-27T09:49:27.777 回答
0

好的,给定xml:

def xml = '''<root>
    <node woo="&#xD1;"/>
    <another attr="This is an N-Tilde - &#xD1;"/>
</root>'''

我们可以将该属性读入一个变量:

def woo = new XmlParser().parseText( xml ).node[0].@woo

打印出来给我们'Ñ'(字符值为209

但这就是我所期望的...与N-波浪号的正确编码&#xD1;相同&#209;

啊,“我如何读取属性,并在没有任何实体解析的情况下保持原样”的问题也是如此?

我不相信你可以(我所看到的只是网络搜索的否定答案)......你可以做的是:

// Mask entities

xml = xml.replaceAll( /&#x([0-9A-F]+?);/, '!!#x$1;' )

def parser = new XmlParser().parseText( xml )

println parser.node[0].@attr.replaceAll( /!!#x([0-9A-F]+?);/, '&#x$1;' )
println parser.another[0].@attr.replaceAll( /!!#x([0-9A-F]+?);/, '&#x$1;' )

但据我所知,没有一种方法可以关闭实体分辨率:-((手指交叉,我错了)

于 2013-09-27T07:46:01.537 回答