python - 带有 BOM 的 UTF-8 HTML 和 CSS 文件（以及如何使用 Python 删除 BOM）

Question

首先，一些背景知识：我正在使用 Python 开发一个 Web 应用程序。我所有的（文本）文件当前都以 UTF-8 格式存储在 BOM 中。这包括我所有的 HTML 模板和 CSS 文件。这些资源作为二进制数据（BOM 和所有）存储在我的数据库中。

当我从数据库中检索模板时，我使用template.decode('utf-8'). 当 HTML 到达浏览器时，BOM 出现在 HTTP 响应正文的开头。这会在 Chrome 中产生一个非常有趣的错误：

Extra <html> encountered. Migrating attributes back to the original <html> element and ignoring the tag.

Chrome 似乎会<html>在看到 BOM 并将其误认为内容时自动生成标签，从而使真正的<html>标签成为错误。

那么，使用 Python，从我的 UTF-8 编码模板中删除 BOM 的最佳方法是什么（如果它存在——我不能保证将来会这样做）？

对于 CSS 等其他基于文本的文件，主流浏览器会正确解释（或忽略）BOM 吗？它们作为纯二进制数据发送，没有.decode('utf-8').

注意：我使用的是 Python 2.5。

谢谢！

score 24 · Accepted Answer

既然你说：

我的所有（文本）文件当前都以 UTF-8 格式存储在 BOM 中

然后使用“utf-8-sig”编解码器对其进行解码：

>>> s = u'Hello, world!'.encode('utf-8-sig')
>>> s
'\xef\xbb\xbfHello, world!'
>>> s.decode('utf-8-sig')
u'Hello, world!'

它会自动删除预期的 BOM，并且如果 BOM 不存在也能正常工作。

score 10 · Accepted Answer

10

解码后检查第一个字符是否为BOM：

if u.startswith(u'\ufeff'):
  u = u[1:]

于 2010-03-16T17:33:19.120 回答

score 1 · Accepted Answer

先前接受的答案是错误的。

u'\ufffe'不是一个字符。如果你把它放在一个 unicode 字符串中，那么有人已经把它塞满了。

BOM（又名零宽度无间断空间）是u'\ufeff'

>>> UNICODE_BOM = u'\N{ZERO WIDTH NO-BREAK SPACE}'
>>> UNICODE_BOM
u'\ufeff'
>>>

阅读这个（Ctrl-F 搜索 BOM）和这个和这个（Ctrl-F 搜索 BOM）。

这是一个正确且错字/抗脑力的答案：

将您的输入解码为unicode_str. 然后这样做：

# If I mistype the following, it's very likely to cause a SyntaxError.
UNICODE_BOM = u'\N{ZERO WIDTH NO-BREAK SPACE}'
if unicode_str and unicode_str[0] == UNICODE_BOM:
    unicode_str = unicode_str[1:]

奖励：与看似任意的六边形文字集合相比，使用命名常量可以让您的读者更多地了解正在发生的事情。

更新不幸的是，标准 Python 库中似乎没有合适的命名常量。

唉，编解码器模块只提供“一个圈套和一个妄想”：

>>> import pprint, codecs
>>> pprint.pprint([(k, getattr(codecs, k)) for k in dir(codecs) if k.startswith('BOM')])
[('BOM', '\xff\xfe'),   #### aarrgghh!! ####
 ('BOM32_BE', '\xfe\xff'),
 ('BOM32_LE', '\xff\xfe'),
 ('BOM64_BE', '\x00\x00\xfe\xff'),
 ('BOM64_LE', '\xff\xfe\x00\x00'),
 ('BOM_BE', '\xfe\xff'),
 ('BOM_LE', '\xff\xfe'),
 ('BOM_UTF16', '\xff\xfe'),
 ('BOM_UTF16_BE', '\xfe\xff'),
 ('BOM_UTF16_LE', '\xff\xfe'),
 ('BOM_UTF32', '\xff\xfe\x00\x00'),
 ('BOM_UTF32_BE', '\x00\x00\xfe\xff'),
 ('BOM_UTF32_LE', '\xff\xfe\x00\x00'),
 ('BOM_UTF8', '\xef\xbb\xbf')]
>>>

更新 2如果您尚未解码您的输入，并希望检查它的 BOM，您需要检查UTF-16 的两个不同的 BOM 和 UTF-32的至少两个不同的 BOM。如果每种方法只有一种，那么您就不需要 BOM，对吗？

这里从我自己的代码中逐字记录是我对此的解决方案：

def check_for_bom(s):
    bom_info = (
        ('\xFF\xFE\x00\x00', 4, 'UTF-32LE'),
        ('\x00\x00\xFE\xFF', 4, 'UTF-32BE'),
        ('\xEF\xBB\xBF',     3, 'UTF-8'),
        ('\xFF\xFE',         2, 'UTF-16LE'),
        ('\xFE\xFF',         2, 'UTF-16BE'),
        )
    for sig, siglen, enc in bom_info:
        if s.startswith(sig):
            return enc, siglen
    return None, 0

输入s应至少是输入的前 4 个字节。它返回可用于解码输入的后 BOM 部分的编码，以及 BOM 的长度（如果有）。

如果您是偏执狂，您可以允许另外 2 个（非标准）UTF-32 排序，但 Python 不为它们提供编码，我从未听说过实际发生，所以我不打扰。

score 0 · Accepted Answer

您可以使用类似的东西来删除 BOM：

import os, codecs
def remove_bom_from_file(filename, newfilename):
    if os.path.isfile(filename):
        # open file
        f = open(filename,'rb')

        # read first 4 bytes
        header = f.read(4)

        # check if we have BOM...
        bom_len = 0
        encodings = [ ( codecs.BOM_UTF32, 4 ),
            ( codecs.BOM_UTF16, 2 ),
            ( codecs.BOM_UTF8, 3 ) ]

        # ... and remove appropriate number of bytes    
        for h, l in encodings:
            if header.startswith(h):
                bom_len = l
                break
        f.seek(0)
        f.read(bom_len)

        # copy the rest of file
        contents = f.read() 
        nf = open(newfilename)
        nf.write(contents)
        nf.close()

python - 带有 BOM 的 UTF-8 HTML 和 CSS 文件（以及如何使用 Python 删除 BOM）

4 回答 4

Related

Reference