0

我有一个像“pe%20to%C5%A3i%20mai”这样的字符串。当我对其应用 urllib.parse.unquote 时,我得到“pe to\u0163i mai”。如果我尝试将其写入文件,我会得到那些确切的符号,而不是预期的字形。

如何将字符串转换为 utf-8,以便在文件中我有正确的字形?

编辑:我正在使用 Python 3.2

Edit2:所以我发现它urllib.parse.unquote工作正常,而我的问题实际上是我正在序列化为 YAML,yaml.dump这似乎把事情搞砸了。为什么?

4

4 回答 4

4

更新:如果输出文件是 yaml 文档,那么您可以忽略\u0163它。Unicode 转义在 yaml 文档中有效。

#!/usr/bin/env python3
import json

# json produces a subset of yaml
print(json.dumps('pe toţi mai')) # -> "pe to\u0163i mai"
print(json.dumps('pe toţi mai', ensure_ascii=False)) # -> "pe toţi mai"

注意:\u在最后一种情况下没有。这两行代表相同的 Python 字符串。

yaml.dump()有类似的选项:allow_unicode. 将其设置True为避免 Unicode 转义。


网址是正确的。你不需要对它做任何事情:

#!/usr/bin/env python3
from urllib.parse import unquote

url =  "pe%20to%C5%A3i%20mai"
text = unquote(url)

with open('some_file', 'w', encoding='utf-8') as file:
    def p(line):
        print(line, file=file) # write line to file

    p(text)                # -> pe toţi mai
    p(repr(text))          # -> 'pe toţi mai'
    p(ascii(text))         # -> 'pe to\u0163i mai'

    p("pe to\u0163i mai")  # -> pe toţi mai
    p(r"pe to\u0163i mai") # -> pe to\u0163i mai
    #NOTE: r'' prefix

\u0163序列可能由字符编码错误处理程序引入:

with open('some_other_file', 'wb') as file: # write bytes
    file.write(text.encode('ascii', 'backslashreplace')) # -> pe to\u0163i mai

或者:

with open('another', 'w', encoding='ascii', errors='backslashreplace') as file:
    file.write(text) # -> pe to\u0163i mai

更多示例:

# introduce some more \u escapes
b = r"pe to\u0163i mai ţţţ".encode('ascii', 'backslashreplace') # bytes
print(b.decode('ascii')) # -> pe to\u0163i mai \u0163\u0163\u0163
# remove unicode escapes
print(b.decode('unicode-escape')) # -> pe toţi mai ţţţ
于 2012-08-13T17:51:44.970 回答
2

蟒蛇 3

调用urllib.parse.unquote已经返回一个 Unicode 字符串:

>>> urllib.parse.unquote("pe%20to%C5%A3i%20mai")
'pe toţi mai'

如果你没有得到那个结果,那一定是你的代码有错误。请发布您的代码。

蟒蛇2

用于decode从字节串中获取 Unicode 字符串:

>>> import urllib2
>>> print urllib2.unquote("pe%20to%C5%A3i%20mai").decode('utf-8')
pe toţi mai

请记住,当您将 Unicode 字符串写入文件时,您必须再次对其进行编码。您可以选择以 UTF-8 格式写入文件,但如果您愿意,也可以选择不同的编码。您还必须记住在从文件中读取时使用相同的编码。您可能会发现该codecs模块可用于在读取和写入文件时指定编码。

>>> import urllib2, codecs
>>> s = urllib2.unquote("pe%20to%C5%A3i%20mai").decode('utf-8')

>>> # Write the string to a file.
>>> with codecs.open('test.txt', 'w', 'utf-8') as f:
...     f.write(s)

>>> # Read the string back from the file.
>>> with codecs.open('test.txt', 'r', 'utf-8') as f:
...     s2 = f.read()

一个可能令人困惑的问题是,在交互式解释器中,有时使用\uxxxx符号而不是实际字符来显示 Unicode 字符串:

>>> s
u'pe to\u0163i mai'
>>> print s
pe toţi mai

这并不意味着该字符串是“错误的”。这只是解释器的工作方式。

于 2012-08-13T17:32:31.153 回答
2

尝试decode使用unicode_escape.

例如:

>>> print "pe to\u0163i mai".decode('unicode_escape')
pe toţi mai
于 2012-08-13T17:32:44.013 回答
1

返回了一个正确的urllib.parse.unquoteUTF-8 字符串,并将其直接写入返回的文件中得到了预期的结果。问题出在 yaml 上。默认情况下,它不使用 UTF-8 编码。

我的解决方案是:

yaml.dump("pe%20to%C5%A3i%20mai",encoding="utf-8").decode("unicode-escape")

感谢 JF Sebastian 和 Mark Byers 向我提出了正确的问题,帮助我解决了问题!

于 2012-08-13T18:39:16.340 回答