为了简化我的问题,我创建了一个工作演示,它应该根据处理文件名的 python unicode 文档工作。输出如下:
$ ./test_unicode.py /tmp/gsynctest/Greg.*
p = '/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up = u'/tmp/gsynctest/Greg. Descripci\xf3n v\xeddeos'
up.utf8 = /tmp/gsynctest/Greg. Descripción vídeos
Command line file exists = True
Unicode file exists = False
UTF-8 file exists = False
如您所见,按照出现的顺序,p
是通过 argv 和 glob 提供的文件名。尽管我的终端具有 LANG="en_GB.UTF-8",但它具有“latin-1”编码。如果我使用严格的 unicode 错误集对其进行解码,我会得到up
. 如果我将其编码为 utf8,我会得到代表真实文件名的内容。
但是,根据 unicode 文档,应使用 sys.getfilesystemencoding() 对 unicode 文件名进行编码以便访问它。但这不起作用。三项exists
检查显示哪一项有效,它似乎是 latin-1 (ISO-8859-1) 编码。
我不知道为什么我所看到的不能反映文档。
下面是测试程序代码:
#!/usr/bin/env python
import sys, os
paths = sys.argv[1:]
fsenc = sys.getfilesystemencoding()
for p in paths:
print "p = %s" % repr(p)
if not isinstance(p, unicode):
up = unicode(p, encoding = "latin-1", errors = "strict")
print "up = %s" % repr(up)
print "up.utf8 = %s" % up.encode("utf8")
print "Command line file exists = %s" % os.path.exists(p)
print "Unicode file exists = %s" % os.path.exists(up)
print "%s file exists = %s" % (fsenc, os.path.exists(up.encode(fsenc)))
. . .
原始问题:
如果我尝试以原始形式解码以下文件名表示,则会收到“无效的延续字节”错误:Greg. Descripci\xf3n v\xeddeos\n
for p in paths:
p = p.decode(sys.getfilesystemencoding())
这是提交此错误的用户提交的真实文件名。我对 unicode / UTF-8 编码的理解不是很好,但据我所知,它不是合法的 UTF-8,因为它需要某种终结符。我并不关心打印时文件名的外观,它只需要在磁盘上可以访问。处理这样的文件的常规方法是什么?我的大部分问题都源于尝试打印文件:
debug(u"Filename: %s" % unicode(path))
更新:尝试,更加努力,更加努力仍然有什么好处吗?
for e in (sys.getfilesystemencoding(), "UTF-8", "Latin-1"):
try:
p_dec = p.decode("Latin-1")
p = p_dec.encode(sys.getfilesystemencoding())
except UnicodeDecodeError:
pass
显然对于文件系统编码相同的编码来说不是那么理想,因为它将以相同的编码进行解码和编码。但至少我可以保证在后续调用中解码文件名不会有任何异常。我看到的唯一问题是,不正确的编码可能会毫无错误地解码文件名,从而产生一个完全错误的编码文件名。
无论哪种方式,我都需要跟踪两个文件名吗?磁盘上可访问的原始文件名和可打印文件名?还是文件系统编码的文件名既可打印又可访问?
更新 2:我的问题的答案是“不”。我实现了自己的编解码器来循环编码类型并在文件系统编码中重新编码。该表示现在可以打印了:Greg. Descripción vídeos
但该文件不再可访问。所以我假设保持文件系统访问和可打印性的最简单方法是将文件名包装在一个具有打印和 IO 实现的类中;除非有人有任何其他建议吗?