3

我有一个似乎有重复提交的 github 存储库。每个提交具有相同的消息字符串和相同的日期/作者,但不同的 SHA-1 哈希和。例如,在我的日志中,我发现了以下四倍:

 'commit 55e55517bf32b7ba7382b97f41a1514af8a5f5dc',
 'Author: dermen <dermen@stanford.edu>',
 'Date:   Tue Feb 19 20:03:35 2013 -0800',
 'finished with the cromermann edition',
 'commit 814fb08e0d42588a500947cba42a980ac24c01b8',
 'Author: dermen <dermen@stanford.edu>',
 'Date:   Tue Feb 19 20:03:35 2013 -0800',
 'finished with the cromermann edition',
 'commit a5f581f513d12e95627669f61cfe27064ffe8319',
 'Author: dermen <dermen@stanford.edu>',
 'Date:   Tue Feb 19 20:03:35 2013 -0800',
 'finished with the cromermann edition',
 'commit a264614b674e1ad2c4c8cc953cb27cf77c0d2615',
 'Author: dermen <dermen@stanford.edu>',
 'Date:   Tue Feb 19 20:03:35 2013 -0800',
 'finished with the cromermann edition',

除了 SHA-1 散列之外,一切都是相同的。例如,当我跑步时

git diff 55e55517bf32b7ba7382b97f41a1514af8a5f5dc    814fb08e0d42588a500947cba42a980ac24c01b8

我得到零输出 - 这是否意味着提交是相同的。如果这是真的,那么他们为什么会有单独的 SHA-1 哈希和?也许我误解了,但 SHA-1 哈希不应该直接表示文件中的内容吗?因此,如果提交相等,那么它们应该具有相同的哈希值。

无论如何,我想知道尝试过滤这些明显的重复项是否明智/不明智......任何提示/重定向将不胜感激。

4

1 回答 1

7

从以下信息生成 git commit sha

  • 提交消息
  • 作者签名(身份+时间戳)
  • 提交者签名(身份+时间戳)
  • tree sha(提交时目录和文件的层次结构)
  • 父提交的 shas 列表

由于 shas 不同,这是因为这些信息中至少有一个不同。

为了更好地了解每个提交的数据是什么(以及它们之间的区别),您可以运行以下命令来获取每个提交的原始输出

$ git show --format=raw <commit_sha>

此命令的输出示例

基于libgit2项目的随机提交

$ git show --format=raw eb58e2d
commit eb58e2d0be4e07c2ef873a5f0562eaa90826c2de
tree 41959050b1e3adb428e140102a0c321949be516b
parent 3b5001b4c911db9c47d62399c1adc03bd8a3ca72
parent 3e9e6cdaff8acb11399736abbf793bf2d000d037
author Vicent Marti <tanoku@gmail.com> 1371063948 +0200
committer Vicent Marti <tanoku@gmail.com> 1371063948 +0200

    Merge remote-tracking branch 'arrbee/minor-paranoia' into development

diff --cc src/refdb.c
index 359842e,4271b58..6da409a
--- a/src/refdb.c
+++ b/src/refdb.c
@@@ -86,9 -86,10 +86,10 @@@ int git_refdb_compress(git_refdb *db
        return 0;
  }

 -static void refdb_free(git_refdb *db)
 +void git_refdb__free(git_refdb *db)
  {
        refdb_free_backend(db);
+       git__memset(db, 0, sizeof(*db));
        git__free(db);
  }

回到您的问题

我得到零输出 - 这是否意味着提交是相同的

这意味着提交所指向的内容是相同的。但是元数据肯定会有所不同。

也许我误解了,但 SHA-1 哈希不应该直接表示文件中的内容吗?

在 Git 中,SHA-1 哈希用于表示 git 对象:blob(即文件)、(即 blob 和子树的列表)和提交。您可以在Pro Git一书的第9.2 章 Git 内部 - Git 对象中找到更多信息。

例如,在我的日志中,我发现了以下四倍

例如,当您修改/rebase/fixup 提交的内容时,可能会发生这种情况。在这些情况下,只有提交日期会改变。

无论如何,我想知道尝试过滤这些明显的重复项是否明智/不明智

您不必自己清理。这些对象存储在 Git 对象数据库中。Git 实现了一种垃圾收集机制,该机制将定期自动从中删除孤立对象(有关更多详细信息,请参阅git-gc 文档)。

于 2013-06-24T14:41:06.807 回答