我正在运行一个 python 程序来处理制表符分隔的 txt 数据。
但它会引起麻烦,因为它通常具有 U+001A 或http://en.wikipedia.org/wiki/Newline#Unicode等 unicode
(更糟糕的是,除非用 sublime txt 打开 txt,否则甚至看不到这些字符,甚至用 notepad++ 也看不到)
如果 python 程序在 Linux 上运行,那么它会自动忽略这些字符,但在 Windows 上,它不能。
例如,如果txt中有U+001A,那么python程序会自动认为这是文件的结尾。
再举个例子,如果 txt 中有 U+0085,那么 python 程序会认为这是新行的开始点。
所以我只想要一个单独的程序,它可以清除普通文件打开器(如记事本++)中未显示的每个 unicode 字符(并且该程序应该在 Windows 上运行)。
我确实想保留 あ 和 ä 之类的东西。但我只删除了记事本++看不到的 U+001A 和 U+0085 之类的东西
如何做到这一点?