python - Python - 以奇怪的 utf-16 格式读取文本文件

Question

我正在尝试将文本文件读入 python，但它似乎使用了一些非常奇怪的编码。我尝试通常：

file = open('data.txt','r')

lines = file.readlines()

for line in lines[0:1]:
    print line,
    print line.split()

输出：

0.0200197   1.97691e-005

['0\x00.\x000\x002\x000\x000\x001\x009\x007\x00', '\x001\x00.\x009\x007\x006\x009\x001\x00e\x00-\x000\x000\x005\x00']

打印线条效果很好，但是在我尝试分割线条以便将其转换为浮点数之后，它看起来很疯狂。当然，当我尝试将这些字符串转换为浮点数时，会产生错误。关于如何将这些转换回数字的任何想法？

如果您想尝试加载它，我将示例数据文件放在这里： https ://dl.dropboxusercontent.com/u/3816350/Posts/data.txt

我想简单地使用 numpy.loadtxt 或 numpy.genfromtxt，但他们也不想处理这个疯狂的文件。

score 27 · Accepted Answer

我敢打赌这是一个 UTF-16-LE 文件，并且您正在阅读它作为您的默认编码是什么。

在 UTF-16 中，每个字符占用两个字节。* 如果您的字符都是 ASCII，这意味着 UTF-16 编码看起来像 ASCII 编码，每个字符后有一个额外的 '\x00'。

要解决这个问题，只需解码数据：

print line.decode('utf-16-le').split()

或者使用 io 或 codecs 模块在文件级别做同样的事情：

file = io.open('data.txt','r', encoding='utf-16-le')

* 这有点过于简单化了：每个 BMP 字符占用两个字节；每个非 BMP 字符都被转换成一个代理对，两个代理中的每一个都占用两个字节。但你可能并不关心这些细节。

score 3 · Accepted Answer

对我来说看起来像 UTF-16。

>>> test_utf16 = '0\x00.\x000\x002\x000\x000\x001\x009\x007\x00'
>>> test_utf16.decode('utf-16')
u'0.0200197'

您可以直接使用 Unicode 字符串：

>>> float(test_utf16)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ValueError: null byte in argument for float()
>>> float(test_utf16.decode('utf-16'))
0.020019700000000001

如果您愿意，或者将它们编码为不同的东西：

>>> float(test_utf16.decode('utf-16').encode('ascii'))
0.020019700000000001

请注意，您需要在处理过程中尽早执行此操作。正如您的评论所指出的，split在 utf-16 编码形式上将表现不正确。空格字符的 utf-16 表示形式' '是' \x00'，因此split删除了空格但留下了空字节。

2.6 和更高版本的io库可以为您处理这个问题，旧的codecs库也可以。io更好地处理换行符，因此如果可用，它是可取的。

score 1 · Accepted Answer

这实际上只是@abarnert 的建议，但我想将其作为答案发布，因为这是最简单的解决方案，也是我最终使用的解决方案：

    file = io.open(filename,'r',encoding='utf-16-le')
    data = np.loadtxt(file,skiprows=8)

这演示了如何使用 io.open 使用文件碰巧具有的任何疯狂编码创建文件对象，然后将该文件对象传递给 np.loadtxt（或 np.genfromtxt）以快速轻松地加载。

score 0 · Accepted Answer

这段代码将做必要的

file_handle=open(file_name,'rb')
file_first_line=file_handle.readline()
file_handle.close()
print file_first_line
if '\x00' in file_first_line:
    file_first_line=file_first_line.replace('\x00','')
    print file_first_line

当您尝试在替换之前使用 'file_first_line.split()' 时，输出将包含 '\x00' 我只是尝试将 '\x00' 替换为空并且它有效。

python - Python - 以奇怪的 utf-16 格式读取文本文件

4 回答 4

Related

Reference