git - 我真的需要在 .gitattributes 中指定所有二进制文件吗

Question

我已经阅读了Git 文档，该文档表明我可以明确地将某些文件设置为文本，因此它们的行尾会自动更改或作为二进制文件以确保它们不受影响。

但是，我也读到 Git 非常擅长检测二进制文件，这让我觉得这不是必需的。所以我的问题是我真的需要为我的存储库中的每个文件扩展名指定这些显式设置吗？我已经看到一些建议对所有图像文件扩展名都这样做。

# Set the default behavior, in case people don't have core.autocrlf set.
* text=auto

# Explicitly declare text files you want to always be normalized and converted
# to native line endings on checkout.
*.c text
*.h text

# Denote all files that are truly binary and should not be modified.
*.png binary
*.jpg binary

score 14 · Accepted Answer

Git 将检查文件的前 8,000 个字节，看它是否包含 NUL 字符。如果是，则假定该文件是二进制文件。

从git的源代码：

#define FIRST_FEW_BYTES 8000
int buffer_is_binary(const char *ptr, unsigned long size)
{
    if (FIRST_FEW_BYTES < size)
        size = FIRST_FEW_BYTES;
    return !!memchr(ptr, 0, size);
}

对于文本文件，除非您出于某种原因故意插入 NUL 字符，否则它们会被正确猜到。对于二进制文件，前 8,000 个字节很可能至少包含一个实例。

在大多数情况下，您不需要显式声明文件的类型（我想我从来没有）。实际上，如果遇到问题，只需声明一个特定文件。

score 3 · Accepted Answer

一般来说，Git 擅长检测文件是文本还是二进制文件，因此您可能不需要明确设置任何内容。* text=auto正如您所指出的，无论如何设置默认值是一个好主意。

但是，如果您或从事该项目的任何人正在使用 UTF-16 格式的文件，那么显式设置text这些文件的属性以及属性是一个非常好的主意working-tree-encoding，因为 Git 会注意到其中的 NUL 字节并认为他们作为二进制。

您还应该将您认为可能被误检测为文本的任何文件类型指定为二进制文件。例如，如果您有一些仅包含可打印 ASCII 字节的图像格式或文件，Git 可能会将其误检测为文本。您需要明确指定这些文件以避免混淆。只有您会知道存储库中的哪些文件可能会遇到该问题。

git - 我真的需要在 .gitattributes 中指定所有二进制文件吗

2 回答 2

Related

Reference