python - Python 字符串编码和 ==

Question

当我认为它们应该存在时，我在 python 中的字符串不存在时遇到了一些问题==，我相信这与它们的编码方式有关。基本上，我解析了一些存储在 zip 档案中的逗号分隔值（特别是 GTFS 提要，对于那些好奇的人）。

我在 python 中使用 ZipFile 模块打开 zip 存档中的某些文件，然后将那里的文本与一些已知值进行比较。这是一个示例文件：

agency_id,agency_name,agency_url,agency_phone,agency_timezone,agency_lang
ARLC,Arlington Transit,http://www.arlingtontransit.com,703-228-7433,America/New_York,en

我正在使用的代码试图识别文本第一行中字符串“agency_id”的位置，以便我可以在任何后续行中使用相应的值。这是代码片段：

zipped_feed = ZipFile(feed_name, "r")
agency_file = zipped_feed.open("agency.txt", "r")

line_num = 0
agencyline = agency_file.readline()
while agencyline:
    if line_num == 0:
        # this is the header, all we care about is the agency_id
        lineparts = agencyline.split(",")
        position = -1
        counter = 0
        for part in lineparts:
            part = part.strip()
            if part == "agency_id":
                position = counter              
        counter += 1
        line_num += 1
        agencyline = agency_file.readline()
    else:
        .....

此代码适用于某些 zip 档案，但不适用于其他档案。我做了一些研究并尝试打印 repr(part)，我得到了 '\xef\xbb\xbfagency_id' 而不是 'agency_id'。有谁知道这里发生了什么以及我该如何解决？感谢所有的帮助！

score 5 · Accepted Answer

那是一个字节顺序标记，它告诉文件的编码，在 UTF-16 和 UTF-32 的情况下，它还告诉文件的字节序。您可以解释它或检查它并将其从字符串中删除。要删除它，您可以这样做：

import codecs

unicode(part, "utf8").lstrip(codecs.BOM_UTF8.decode("utf8", "strict"))

score 3 · Accepted Answer

您的输入文件似乎是 utf-8 并以'ZERO WIDTH NO-BREAK SPACE'-character 开头，

import unicodedata
unicodedata.name('\xef\xbb\xbf'.decode('utf8'))
# gives: 'ZERO WIDTH NO-BREAK SPACE'

用作 BOM（或更准确地说，将文件标识为 utf8，因为 utf8 的字节顺序并不准确，但无论如何它通常称为 BOM）

score 0 · Accepted Answer

很简单：您的一些 zip 档案在字符串的开头打印Unicode BOM（字节顺序标记）。这用于指示用于多字节编码的字节顺序。这意味着您正在将 Unicode 字符串（可能是 UTF-16 编码）作为字节字符串读取。最简单的方法是在字符串的开头检查它并将其删除。

score 0 · Accepted Answer

你得到的是一个文件，它可能偶尔在文件的前面有一个 Unicode 字节顺序标记。有时这是由编辑引入以指示编码。

这里有一些细节 - http://en.wikipedia.org/wiki/Byte_order_mark

底线是您可以查找 \xef\xbb\xbf 字符串，它是 UTF-8 编码数据的标记，然后将其剥离。或者另一种选择是使用编解码器包打开它

with codecs.open('input', 'r', 'utf-8') as file:

或者在你的情况下

zipped_feed = ZipFile(feed_name, "r")
# adding a StreamReader around the zipped_feed.open(...)
agency_file = codecs.StreamReader(zipped_feed.open("agency.txt", "r"))

python - Python 字符串编码和 ==

4 回答 4

Related

Reference