我有一个包含一些特殊字符的文档,例如不间断空格、不间断连字符等。我想规范化这个文档并用空格替换这些特殊字符。另外,由于本文档的内容是从不同的资源中收集的,所以我在其中有不同形式的“Yeh”(ی),我想将它们规范化。
是否可以使用sed命令查找和替换文档中的 unicode 字符?我可以使用 Unicode 代码代替字符的表面形式吗?例如,我可以在 sed 命令中使用 x00a0 代替不间断空格吗?如何?
抱歉解释不好。我的文档以 UTF8 编码,并且包含非英文字符。例如,我有一份阿拉伯语文件、一份乌尔都语文件和一份波斯语(波斯语)文件。现在我想用另一个字符替换这些文件中的一些字符。通过规范化,我的意思是我想将所有形式的“Yeh”替换为一种形式。(正如您现在可能看到的那样,这个字符在阿拉伯语中有多种形式,但为了简化和一些处理问题,我想统一所有这些形式。