2

我知道在所有情况下我都需要逃避这些:

quot  "
amp   &
apos  '
lt    <
gt    >

但是有口音的国际字符,或者俄罗斯字符来命名一对呢?当我的编码指令设置为 UTF-8 时,是否需要转义这种类型的字符?

如果我将编码指令设置为 ASCII 怎么办?我还需要转义所有这些角色吗?

这是我尝试使用 Nokogiri(lib2xml) 重现的 XML 示例(来自遗留系统):

<?xml version="1.0" encoding="UTF-8"?>
  <DESCRIPTION lang="rus">
    <SHORT_DESCRIPTION>&#1052;&#1054;&#1044;&#1059;&#1051;&#1068;- ELECTRONIC  OUTPUT 120 V DC 5 mA</SHORT_DESCRIPTION>
    <LONG_DESCRIPTION>&#1052;&#1054;&#1044;&#1059;&#1051;&#1068;- &#1058;&#1048;&#1055; ELECTRONIC  OUTPUT &#1042;&#1061;&#1054;&#1044; 120 V DC &#1042;&#1067;&#1061;&#1054;&#1044; 5 mA &#1048;&#1057;&#1058;&#1054;&#1063;&#1053;&#1048;&#1050; &#1055;&#1048;&#1058;&#1040;&#1053;&#1048;&#1071; 120 V DC &#1044;&#1054;&#1055;&#1054;&#1051;&#1053;&#1048;&#1058;&#1045;&#1051;&#1068;&#1053;&#1040;&#1071; &#1044;&#1045;&#1058;&#1040;&#1051;&#1068; 1 ANALOG SM322-8S TOR</LONG_DESCRIPTION>
 </DESCRIPTION>

您可以看到示例中的指令说 UTF-8,但它们已经转义了很多字符,Nokogiri 只有在我指定 ASCII 编码指令时才会转义的字符。这让我感到困惑。

编辑 2:如果我不向 Nokogiri 传递编码指令,则生成的 XML 会将所有俄语字符留在其本机西里尔字母中,但这与我需要复制的 XML 不一致。

4

1 回答 1

2

您只需要在以下任一情况下使用字符引用来表示字符:

  • 它在当前上下文中具有特殊含义(因此您列出的五个字符有时只需要编码)
  • 它在文件编码的字符编码中不存在

ASCII 中没有很多字符,因此如果您将 XML 编码为 ASCII,您将不得不对许多字符使用字符引用。

不要用 ASCII 编码你的 XML。XML 的默认编码是 UTF-8,它得到了很好的支持。

于 2013-01-11T20:38:21.707 回答