python - 解码文件名问题

Question

为了简化我的问题，我创建了一个工作演示，它应该根据处理文件名的 python unicode 文档工作。输出如下：

$ ./test_unicode.py /tmp/gsynctest/Greg.*
p = '/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up = u'/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up.utf8 = /tmp/gsynctest/Greg. Descripción vídeos
Command line file exists = True
Unicode file exists = False
UTF-8 file exists = False

如您所见，按照出现的顺序，p是通过 argv 和 glob 提供的文件名。尽管我的终端具有 LANG="en_GB.UTF-8"，但它具有“latin-1”编码。如果我使用严格的 unicode 错误集对其进行解码，我会得到up. 如果我将其编码为 utf8，我会得到代表真实文件名的内容。

但是，根据 unicode 文档，应使用 sys.getfilesystemencoding() 对 unicode 文件名进行编码以便访问它。但这不起作用。三项exists检查显示哪一项有效，它似乎是 latin-1 (ISO-8859-1) 编码。

我不知道为什么我所看到的不能反映文档。

下面是测试程序代码：

#!/usr/bin/env python

import sys, os

paths = sys.argv[1:]

fsenc = sys.getfilesystemencoding()

for p in paths:
    print "p = %s" % repr(p)

    if not isinstance(p, unicode):
        up = unicode(p, encoding = "latin-1", errors = "strict")

    print "up = %s" % repr(up)
    print "up.utf8 = %s" % up.encode("utf8")

    print "Command line file exists = %s" % os.path.exists(p)
    print "Unicode file exists = %s" % os.path.exists(up)
    print "%s file exists = %s" % (fsenc, os.path.exists(up.encode(fsenc)))

. . .

原始问题：

如果我尝试以原始形式解码以下文件名表示，则会收到“无效的延续字节”错误：Greg. Descripci\xf3n v\xeddeos\n

for p in paths:
    p = p.decode(sys.getfilesystemencoding())

这是提交此错误的用户提交的真实文件名。我对 unicode / UTF-8 编码的理解不是很好，但据我所知，它不是合法的 UTF-8，因为它需要某种终结符。我并不关心打印时文件名的外观，它只需要在磁盘上可以访问。处理这样的文件的常规方法是什么？我的大部分问题都源于尝试打印文件：

debug(u"Filename: %s" % unicode(path))

更新：尝试，更加努力，更加努力仍然有什么好处吗？

for e in (sys.getfilesystemencoding(), "UTF-8", "Latin-1"):
    try:
        p_dec = p.decode("Latin-1")
        p = p_dec.encode(sys.getfilesystemencoding())
    except UnicodeDecodeError:
        pass

显然对于文件系统编码相同的编码来说不是那么理想，因为它将以相同的编码进行解码和编码。但至少我可以保证在后续调用中解码文件名不会有任何异常。我看到的唯一问题是，不正确的编码可能会毫无错误地解码文件名，从而产生一个完全错误的编码文件名。

无论哪种方式，我都需要跟踪两个文件名吗？磁盘上可访问的原始文件名和可打印文件名？还是文件系统编码的文件名既可打印又可访问？

更新 2：我的问题的答案是“不”。我实现了自己的编解码器来循环编码类型并在文件系统编码中重新编码。该表示现在可以打印了：Greg. Descripción vídeos但该文件不再可访问。所以我假设保持文件系统访问和可打印性的最简单方法是将文件名包装在一个具有打印和 IO 实现的类中；除非有人有任何其他建议吗？

score 1 · Accepted Answer

首先，只写几乎总是一个坏主意unicode(path)。如果您需要将字符串转换为 Unicode，您需要知道它所在的字符集。

假设p表示来自文件系统的路径（例如，您从获取它os.listdir），那么您想使用文件系统的编码对其进行解码，而不仅仅是 Python 认为是一个不错的默认值。* 所以，正确的做法是您已经做了以上：

p = p.decode(sys.getfilesystemencoding())

如果path代表其他东西（例如，你从用户输入中得到它），那就是另一回事了。

或者，如果path是p您在上面计算的值之一，那么它已经是 unicode，因此尝试再次对其进行解码会将其重新编码为您的默认编码，然后重新对其进行解码，这是一件愚蠢的事情。

但是如果不知道字符串来自哪里，您（和我们）就无法知道它在什么字符集中，因此您无法知道如何对其进行解码。

* 在某些系统上，你会很幸运。例如，对于 Mac 上的 Python 3.x，默认编码和文件系统编码都将始终为 UTF-8。但是对于较旧的 linux 机器上的 Python 2.x，默认编码可能是 UTF-8，而文件系统是 Latin-1……这似乎正是您在这里得到的。

score 0 · Accepted Answer

该字符串Greg. Descripci\xf3n v\xeddeos\n以 latin-1 或其他一些非 Unicode 和非 UTF-8 编码进行编码，因此您需要这样做：

"Greg. Descripci\xf3n v\xeddeos\n".decode('latin-1').encode(sys.getfilesystemencoding())

这产生：

'Greg. Descripci\xc3\xb3n v\xc3\xaddeos\n'

问题是您自己的文件系统编码可能与用于通过网络提交文件或文件名的编码不匹配。您可能需要检查传入的编码以查看实际编码是什么。它可能是也可能不是 latin-1：我只使用了 latin-1，因为它是最通用的 8 位编码。

（取决于你在做什么，你实际上可能不需要重新编码。）

python - 解码文件名问题

2 回答 2

Related

Reference