1

我有一个 XML 文件,它需要一个“TAB”字符作为键的值。基于此链接Represent space and tab in XML tag我将其编码为 而不是使用“\t”,因为它将其解释为包含两个字符“\”和“t”的字符串。

我没有使用 CDATA 部分,因为它仍然会将 TAB 视为包含两个字符 '\' 和 't' 的字符串

我的用例的示例 XML 文件如下所示

<?xml version="1.0" encoding="UTF-8"?>
<keys>
    <key>
        <name>key1</name>
        <value>value1</value>
    </key>
    <key>
        <name>key2</name>
        <value>&#009;</value>                                                                    
    </key>
    <key>
        <name>key3</name>
        <value>2048</value>
    </key>
</keys>

这是我现在无法处理此 TAB 字符的代码

...
dom_obj = minidom.parse(self.path_to_xml)
...
for each_key_child in key_child:
    if each_key_child.nodeType == Node.ELEMENT_NODE:
        if each_key_child.nodeName == 'name':
            node_name = str(each_key_child.childNodes[0].data.strip())
        elif each_key_child.nodeName == 'value':
            node_value = str(each_key_child.childNodes[0].data.strip())
        else:
            pass
    else:
        pass

脚本执行后我得到的输出是

'key1': 'value1',
'key2': '',
'key3': '2048',

但是当我在 Python 交互式解释器上执行它时

mobj = minidom.parse(path_to_xml_file)
mobj.getElementsByTagName("value")[1].childNodes[0]

我得到以下输出

<DOM Text node "u'\t'">

但我无法将输出分配给变量。此步骤无效

node = mobj.getElementsByTagName("value")[1].childNodes[0].data

但另一个奇怪的事情是,当我在解释器上说 node 时,它​​正在打印 '\t' !

node
u'\t'

为了查看这是否是 TAB 字符存储在变量中但未显示的真实情况,我将其用作连接两个字符串的分隔符。

这在解释器中工作正常,但在我通过 :set list 选项在 vim 上看到的输出的脚本中却不行

谁能告诉我我采取的方法有什么问题。帮助表示赞赏!

4

1 回答 1

3

你在打电话strip()。这会剥离标签。只是不要那样做。(或者,如果您需要删除空格或换行符或其他特定内容,但保留制表符,请使用特定参数调用它,例如strip('\n').)

这是一个演示(伪造的,因为您的示例 XML 无效,所以我无法对其进行测试):

>>> mobj.getElementsByTagName("value")[1].childNodes[0]
<DOM Text node "u'\t'">
>>> mobj.getElementsByTagName("value")[1].childNodes[0].data
u'\t'
>>> mobj.getElementsByTagName("value")[1].childNodes[0].data.strip()
u''
>>> mobj.getElementsByTagName("value")[1].childNodes[0].data.strip('\n')
u'\t'
于 2013-09-25T19:52:23.743 回答