1

我在尝试清理一些 XML 时遇到了非常糟糕的情况,所以我可以用 etree 在 Python 中解析它。基本上在我的 Python 脚本读取它之前,我试图转义每个字符串条目中给我的所有特殊字符

'xml.parsers.expat.ExpatError: not well-formed'

因此,当我生成 XML 字符串条目时,我使用sed特殊字符替换它们的转义版本,或者只是space当我真的不在乎的时候。

但现在在我生成的 XML 中,我看到了一个^H字符,vim 将其突出显示为蓝色。

我试图逃避^但没有奏效,角色仍然存在,所以我认为它一定是某种复合特殊角色。

感叹为什么这很糟糕。无论如何,感谢您的帮助。

4

1 回答 1

2

^H是表示嵌入文本中的退格字符(ASCII 字符 8)的常用方法;如果您已经在使用sed/bash进行过滤,您可以执行以下操作:

cat infile | sed s/$'\b'// > outfile

不过,我认为您首先在输入文件中有一个 ^H 并不是一件好事……您是如何生成它的?

于 2012-07-12T18:42:06.913 回答